Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Instancias de TPU en MIG

Los grupos de instancias administrados (MIG) automatizan la creación, la configuración y la administración del ciclo de vida de una colección de VMs. Los MIG proporcionan beneficios como alta disponibilidad a través de la reparación automática y las implementaciones regionales (multizona), el ajuste de escala automático para controlar cargas variables y las actualizaciones progresivas simplificadas para las aplicaciones. Para obtener más información, consulta Grupos de instancias administrados.

Puedes usar MIG para crear y administrar VMs de TPU para las versiones v5p, v6e y TPU7x de la TPU. Puedes crear MIG con una sola VM de TPU, VMs de TPU independientes (también llamadas porciones de host único) y MIG con VMs de TPU interconectadas (también llamadas porciones de varios hosts).

Cada porción en un MIG de host único tiene, como máximo, una VM de TPU. Las VMs de TPU dentro del MIG no están conectadas con vínculos de interconexión entre chips (ICI).

Una porción de varios hosts contiene varias VMs de TPU interconectadas con vínculos de ICI.

MIG con una sola instancia de VM de TPU

Puedes crear y administrar una TPU VM individual con un MIG si configuras el tamaño objetivo del MIG en uno. Este enfoque es útil si deseas usar funciones de MIG, como la reparación automática, para una sola instancia. Para obtener más información, consulta Crea un MIG con porciones de TPU de host único.

MIGs con porciones de TPU de host único

Crear un grupo de instancias administrado (MIG) con varias instancias de TPU independientes es beneficioso para las cargas de trabajo que requieren varias VMs de TPU individuales, pero no necesitan que se interconecten con vínculos de ICI para las cargas de trabajo distribuidas. Por ejemplo:

Publicación de inferencias: Cada VM del MIG puede controlar de forma independiente las solicitudes de inferencia. Un MIG te permite escalar la cantidad de instancias de procesamiento según la demanda y administrarlas como un grupo.
Tareas independientes paralelas: Una MIG proporciona una forma de administrar muchos trabajos de entrenamiento pequeños e independientes, o bien otros cálculos que se pueden ejecutar en paralelo en VMs de TPU individuales.
Administración: Los MIG proporcionan las siguientes funciones:
- Implementación: Define una plantilla de instancias una vez y usa el MIG para crear varias VMs de TPU idénticas.
- Escalabilidad: Ajusta la cantidad de VMs de TPU cambiando el tamaño del MIG.
- Actualizaciones progresivas: Actualiza el software o el tipo de máquina en todas las VMs de forma controlada.
Rentabilidad: Para las tareas que no requieren toda la potencia o la interconectividad de una porción de TPU grande, usar varias porciones de TPU más pequeñas e independientes puede ser más rentable.

Para obtener más información, consulta Crea un MIG con porciones de TPU de host único.

MIGs con una porción de varios hosts

A diferencia de los grupos de porciones de TPU independientes, un MIG configurado para una porción de varios hosts administra un conjunto de VMs de TPU que están estrechamente acopladas a través de vínculos de ICI. Esto crea una sola porción de TPU lógica.

Beneficios y rendimiento

Los MIG para las porciones de TPU de varios hosts proporcionan la escala y el rendimiento necesarios para las cargas de trabajo de aprendizaje automático intensivas.

Entrenamiento distribuido: El entrenamiento de modelos de aprendizaje automático suele requerir más potencia de TPU de la que puede proporcionar una sola TPU VM. Las porciones de TPU más grandes distribuyen el procesamiento en muchos chips y VMs de TPU, y los vínculos de ICI permiten una comunicación rápida entre ellos. Esto es fundamental para el rendimiento del entrenamiento.
Ancho de banda de interconexión alto: La red de ICI proporciona un mayor ancho de banda y una menor latencia entre los chips de TPU en la porción que la red estándar del centro de datos (DCN). Esto es fundamental para las operaciones síncronas comunes en el entrenamiento de modelos grandes.

Operaciones atómicas del ciclo de vida

Para garantizar la integridad de la topología interconectada, el MIG administra toda la porción como una sola unidad indivisible durante todo su ciclo de vida.

Creación: Todas las VMs de la porción se aprovisionan juntas. Si no hay suficiente capacidad interconectada y en buen estado disponible para toda la topología solicitada, no se crea la porción.
Borrado: El MIG borra toda la segmentación como una unidad.
Cambio de tamaño: El cambio de tamaño se restringe al ajuste de escala de 0 al tamaño completo de la división o del tamaño completo de la división a 0. No puedes cambiar el tamaño de una porción de varias VM de forma parcial.

Requisitos de configuración

Para configurar un MIG de varios hosts, se deben definir tanto la topología de interconexión física como las propiedades de cada instancia.

Política de carga de trabajo: Debes especificar una política de carga de trabajo con el parámetro accelerator-topology (por ejemplo, 4x4, 8x8 o 4x4x4). Esto configura el MIG para que trate las instancias como una sola porción interconectada. Para obtener información sobre la topología, consulta Topología de TPU.
Plantilla de instancias: Define propiedades como el tipo de máquina, la imagen de disco y otros parámetros de configuración para cada VM dentro de la división.

Disponibilidad de Slice y recuperación de fallas

Cuando usas MIG para crear una porción de TPU de varios hosts, el MIG administra automáticamente el proceso de recuperación de la porción. Si se produce una falla en el host o en el ICI, el segmento pasa al estado REACTIVATING. Todas las VMs de la división cambiarán al estado REPAIRING, aunque no necesariamente al mismo tiempo. Luego, el MIG reiniciará automáticamente las VMs juntas en la capacidad en buen estado para restablecer la segmentación.

Sin embargo, cuando usas VMs Spot, la interrupción provoca que se finalicen las instancias. El MIG no reactiva automáticamente la porción.

Recuperación ante fallas por interrupción de una instancia

Si borras o detienes una instancia de TPU, o bien detienes una instancia desde el sistema operativo, la segmentación pasará al estado FAILED. En este caso, el segmento permanece en el estado FAILED hasta que lo vuelvas a crear. Para volver a crear la segmentación, debes borrar y volver a crear el MIG, o bien cambiar su tamaño a 0 y, luego, aumentarlo.

Para obtener más información sobre los estados de la porción, consulta Cómo ver el estado de una porción de TPU.

Limitaciones

En las siguientes secciones, se explican las limitaciones para crear un MIG con VMs de TPU.

Limitaciones de las plantillas de instancias

Las plantillas de instancias que especifican un tipo de máquina TPU tienen las siguientes limitaciones:

Cuando usas el modelo de aprovisionamiento vinculado a la reserva, debes configurar la acción de finalización de la instancia como borrar.
Las TPU solo pueden consumir reservas orientadas específicamente.
No puedes especificar una política de posición.
Cuando usas la plantilla de instancias para crear un MIG para un segmento de TPU de varios hosts, no puedes inhabilitar el reinicio automático configurando el campo scheduling.automaticRestart en false. Esta limitación se aplica a los modelos de aprovisionamiento estándar, de inicio flexible y vinculados a la reserva.

Limitaciones de los MIG

Los MIG con TPU tienen las siguientes limitaciones:

Operaciones de ciclo de vida: No puedes detener, iniciar, reanudar ni suspender instancias de TPU. Para cambiar la configuración que requiere un reinicio o dejar de generar cargos, debes borrar las instancias.
Distribución de zonas del MIG regional: Debes establecer la forma de distribución objetivo en ANY_SINGLE_ZONE.
Actualizaciones de configuración en un MIG:
- No puedes actualizar un MIG que forma una porción de TPU multihost debido a la topología de acelerador definida.
- Puedes actualizar un MIG que forma porciones de TPU de host único con los métodos automático o selectivo. Sin embargo, las actualizaciones de la porción de TPU de host único no admiten la acción de reinicio (RESTART). Si es necesario reiniciar y la acción más disruptiva permitida es reemplazar (REPLACE), el actualizador reemplazará la instancia. De lo contrario, el intento de actualización fallará con un error.
En el caso de un MIG que forma una porción de TPU de varios hosts, también se aplican las siguientes limitaciones:
- Política de tamaño objetivo: Debes establecer el modo de política de tamaño objetivo en BULK. Una vez que establezcas este modo, no podrás cambiarlo.
- Tamaño objetivo: En el modo masivo, puedes establecer el tamaño objetivo en 0 o en la cantidad de instancias que se requieren para formar la topología del acelerador.
- Política de carga de trabajo: Debes especificar una política de carga de trabajo en la que se defina la topología del acelerador. Después de establecer la política de carga de trabajo, no podrás cambiarla ni quitarla del MIG.
Funciones no admitidas: Las MIG con TPU no admiten las siguientes funciones:
- Flexibilidad de instancias
- Solicitudes de cambio de tamaño para obtener recursos de una sola vez
- Configuración con estado
- En el caso de una MIG que forma una porción de TPU de varios hosts, tampoco se admiten las siguientes opciones:

¿Qué sigue?

Aprende a crear un MIG con porciones de TPU de host único
Aprende a crear un MIG con una porción de TPU de varios hosts

Instancias de TPU en MIG Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.