Instancias de TPU en MIG

Los grupos de instancias administrados (MIG) automatizan la creación, la configuración y la administración del ciclo de vida de una colección de VMs. Los MIG proporcionan beneficios como la alta disponibilidad a través de la reparación automática y las implementaciones regionales (multizona), el ajuste de escala automático para controlar cargas variables y las actualizaciones progresivas simplificadas para las aplicaciones. Para obtener más información, consulta Grupos de instancias administrados.

Puedes usar MIG para crear y administrar VMs de TPU para las versiones v5p de TPU y posteriores. Puedes crear MIG con una sola VM de TPU, VMs de TPU independientes (también llamadas porciones de host único) y MIG con VMs de TPU interconectadas (también llamadas porciones de varios hosts).

Cada porción en un MIG de host único tiene como máximo una VM de TPU. Las VMs de TPU dentro del MIG no están conectadas con vínculos de interconexión entre chips (ICI).

Una porción de varios hosts contiene varias VMs de TPU que están interconectadas con vínculos de ICI.

MIG con una sola instancia de VM de TPU

Puedes crear y administrar una VM de TPU individual con un MIG si configuras el tamaño objetivo del MIG en uno. Este enfoque es útil si deseas usar funciones de MIG como la reparación automática para una sola instancia. Para obtener más información, consulta Crea un MIG con porciones de TPU de host único.

MIG con porciones de TPU de host único

Crear un grupo de instancias administrado (MIG) con varias instancias de TPU independientes es beneficioso para las cargas de trabajo que requieren varias VMs de TPU individuales, pero no necesitan que estén interconectadas con vínculos de ICI para las cargas de trabajo distribuidas. Por ejemplo:

  • Servicio de inferencia: Cada VM en el MIG puede controlar de forma independiente las solicitudes de inferencia. Un MIG te permite escalar la cantidad de instancias de servicio según la demanda y administrarlas como un grupo.
  • Tareas independientes paralelas: Un MIG proporciona una forma de administrar muchos trabajos de entrenamiento pequeños, independientes o otros cálculos que se pueden ejecutar en paralelo en VMs de TPU individuales.
  • Administración: Los MIG proporcionan las siguientes funciones:
    • Implementación: Define una plantilla de instancias una vez y usa el MIG para crear varias VMs de TPU idénticas.
    • Escalabilidad: Ajusta la cantidad de VMs de TPU cambiando el tamaño del MIG.
    • Actualizaciones progresivas: Actualiza el software o el tipo de máquina en todas las VMs de forma controlada.
  • Rentabilidad: Para las tareas que no requieren la potencia completa ni la interconectividad de una porción de TPU grande, usar varias porciones de TPU más pequeñas e independientes puede ser más rentable.

Para obtener más información, consulta Crea un MIG con porciones de TPU de host único.

MIG con una porción de varios hosts

A diferencia de los grupos de porciones de TPU independientes, un MIG configurado para una porción de varios hosts administra un conjunto de VMs de TPU que están estrechamente acopladas a través de vínculos de ICI. Esto crea una sola porción de TPU lógica.

Beneficios y rendimiento

Los MIG para porciones de TPU de varios hosts proporcionan la escala y el rendimiento necesarios para las cargas de trabajo intensivas de aprendizaje automático.

  • Entrenamiento distribuido: El entrenamiento de modelos de aprendizaje automático a menudo requiere más potencia de TPU de la que puede proporcionar una sola VM de TPU. Las porciones de TPU más grandes distribuyen el procesamiento en muchos chips y VMs de TPU, y los vínculos de ICI permiten una comunicación rápida entre ellos. Esto es fundamental para el rendimiento del entrenamiento.
  • Alto ancho de banda de interconexión: La red ICI proporciona un ancho de banda más alto y una latencia más baja entre los chips de TPU en la porción que la red estándar del centro de datos (DCN). Esto es esencial para las operaciones síncronas comunes en el entrenamiento de modelos grandes.

Operaciones atómicas del ciclo de vida

Para garantizar la integridad de la topología interconectada, el MIG administra toda la porción como una unidad única e indivisible durante todo su ciclo de vida.

  • Creación: Todas las VMs de la porción se aprovisionan juntas. Si no hay suficiente capacidad interconectada y en buen estado disponible para toda la topología solicitada, no se crea la porción.
  • Borrado: El MIG borra toda la porción como una unidad.
  • Cambio de tamaño: El cambio de tamaño se limita al escalamiento de 0 al tamaño completo de la porción, o del tamaño completo de la porción a 0. No puedes cambiar el tamaño de una porción de varias VM de forma parcial.

Requisitos de configuración

La configuración de un MIG de varios hosts requiere definir la topología de interconexión física y las propiedades de la instancia individual.

  • Política de carga de trabajo: Debes especificar una política de carga de trabajo con el accelerator-topology parámetro (por ejemplo, 4x4, 8x8 o 4x4x4). Esto configura el MIG para que trate las instancias como una sola porción interconectada. Para obtener información sobre la topología, consulta Topología de TPU.
  • Plantilla de instancias: Define propiedades como el tipo de máquina, la imagen de disco y otros parámetros de configuración para cada VM dentro de la porción.

Disponibilidad de Slice y recuperación ante fallas

Cuando usas MIG para crear una porción de TPU de varios hosts, el MIG administra automáticamente el proceso de recuperación de la porción. Si se produce una falla de host o de ICI, la porción pasa al estado REACTIVATING. Todas las VMs de la porción pasarán al estado REPAIRING, aunque no necesariamente al mismo tiempo. Luego, el MIG reiniciará automáticamente las VMs en la capacidad en buen estado para restablecer la porción.

Sin embargo, cuando usas VMs Spot, la interrupción hace que se finalicen las instancias. El MIG no reactiva automáticamente la porción.

Recuperación ante fallas por una interrupción de la instancia

Si borras o detienes una instancia de TPU, o detienes una instancia desde el sistema operativo, la porción pasará al estado FAILED. En este caso, la porción permanece en el estado FAILED hasta que la vuelvas a crear. Para volver a crear la porción, debes borrar y volver a crear el MIG, o cambiar el tamaño del MIG a 0 y, luego, aumentar su tamaño.

Para obtener más información sobre los estados de las porciones, consulta Consulta el estado de una porción de TPU.

Limitaciones

En las siguientes secciones, se explican las limitaciones para crear un MIG con VMs de TPU.

Limitaciones de las plantillas de instancias

Las plantillas de instancias que especifican un tipo de máquina de TPU tienen las siguientes limitaciones:

  • Cuando usas el modelo de aprovisionamiento vinculado a la reserva, debes configurar la acción de finalización de la instancia para que se borre.

  • Las TPU solo pueden consumir reservas específicamente segmentadas.

  • No puedes especificar una política de posición.

  • Cuando usas la plantilla de instancias para crear un MIG para una porción de TPU de varios hosts, no puedes inhabilitar el reinicio automático si configuras el campo scheduling.automaticRestart en false. Esta limitación se aplica a los modelos de aprovisionamiento estándar, de inicio flexible y vinculados a la reserva.

Limitaciones de los MIG

Los MIG con TPU tienen las siguientes limitaciones:

  • Operaciones del ciclo de vida: No puedes detener, iniciar, reanudar ni suspender instancias de TPU. Para cambiar las configuraciones que requieren un reinicio o para dejar de generar cargos, debes borrar las instancias.

  • Distribución de zonas del MIG regional: Debes configurar la forma de distribución objetivo en ANY_SINGLE_ZONE.

  • Actualizaciones de configuración en un MIG:

    • No puedes actualizar un MIG que forma una porción de TPU de varios hosts debido a la topología de acelerador definida.
    • Puedes actualizar un MIG que forma porciones de TPU de host único con los métodos automático o selectivo. Sin embargo, las actualizaciones para la porción de TPU de host único no admiten la acción de reinicio (RESTART). Si es necesario un reinicio y la acción más disruptiva permitida es reemplazar (REPLACE), el actualizador reemplazará la instancia; de lo contrario, el intento de actualización fallará con un error.

  • En el caso de un MIG que forma una porción de TPU de varios hosts, también se aplican las siguientes limitaciones:

    • Política de tamaño objetivo: Debes configurar el modo de política de tamaño objetivo en BULK. Después de configurar este modo, no podrás cambiarlo.

    • Tamaño objetivo: En el modo masivo, puedes configurar el tamaño objetivo en 0 o la cantidad de instancias que se requieren para formar la topología del acelerador.

    • Política de carga de trabajo: Debes especificar una política de carga de trabajo en la que se defina la topología del acelerador. Después de configurar la política de carga de trabajo, no podrás cambiarla ni quitarla del MIG.

  • Funciones no compatibles: Los MIG con TPU no admiten las siguientes funciones:

¿Qué sigue?