Capacidades de administración de clústeres

Las series de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) están diseñadas para permitirte ejecutar clústeres de inteligencia artificial (IA) y aprendizaje automático (AA) a gran escala, y proporcionan las siguientes capacidades de administración de clústeres:

Colocación de recursos de infraestructura de IA

Cuando usas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), puedes solicitar máquinas host que Compute Engine aprovisiona lo más cerca posible entre sí. Estas máquinas ofrecen las siguientes funciones:

Esta disposición de recursos minimiza los saltos de red y optimiza la latencia de red más baja. Para obtener más información sobre cómo obtener capacidad para implementar bloques de máquinas optimizadas para aceleradores asignados de forma densa, consulta Descripción general de la capacidad.

Colocación con reconocimiento de la topología del clúster

Después de crear instancias de procesamiento con los tipos de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), puedes obtener información de la topología a nivel del nodo y del clúster. Esta información te ayuda a hacer lo siguiente:

  • Ajusta el diseño de tu aplicación o carga de trabajo para minimizar aún más la latencia de la red.

  • Comprende y soluciona problemas de latencia y rendimiento de la red en instancias que se comunican con frecuencia entre sí. Estos problemas pueden ocurrir si las instancias se encuentran inesperadamente muy lejos entre sí.

Para obtener más información, consulta Cómo ver la topología de las instancias de procesamiento.

Modo operativo del clúster

Cuando reservas capacidad para crear instancias o clústeres de procesamiento con los tipos de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), el tipo de máquina que reservas determina el modo operativo del clúster para las instancias. En este modo, se especifica cómo se comportan tus instancias después de errores de host o informes de host defectuosos. Los modos operativos disponibles para una instancia son el modo administrado, en el que Compute Engine reemplaza automáticamente cualquier máquina defectuosa, pero retiene parte de la capacidad reservada para garantizar que tus instancias tengan los recursos necesarios para reiniciarse. O bien el modo de toda la capacidad, en el que tienes acceso a toda tu capacidad reservada, pero eres responsable de administrar las fallas y el mantenimiento planificado.

Para obtener más información, consulta Modo operativo de la reserva.

Programación y controles de mantenimiento del clúster

Puedes controlar el mantenimiento de las máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) con la programación que tiene en cuenta la topología en un bloque de recursos. Esta capacidad ayuda a sincronizar las actualizaciones para que tus cargas de trabajo sean más resistentes a los eventos del host y minimizar las interrupciones. Este enfoque ayuda a mejorar el rendimiento útil de tu carga de trabajo.

Para facilitar el control total de los eventos de mantenimiento, puedes usar las siguientes funciones:

Tipo de programación del mantenimiento

Cuando reservas capacidad para crear instancias de procesamiento o clústeres de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), puedes definir cómo Compute Engine mantiene la infraestructura en la que se ejecutan tus instancias. Según el tipo de máquina que desees usar para tus instancias, puedes elegir entre el mantenimiento sincronizado en todas las instancias (agrupado) o diferentes programas de mantenimiento (independientes).

Para obtener más información, consulta Tipos de programación de mantenimiento.

Administra eventos del organizador

Después de crear instancias de A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) y comenzar tu carga de trabajo, puedes configurar alertas y recibir notificaciones cuando se programe, inicie o complete el mantenimiento de tus instancias o bloques reservados. También puedes ver y, si es necesario, iniciar manualmente el mantenimiento de una instancia o un bloque reservado antes de la hora programada. Estas opciones te ayudan a controlar y minimizar de forma proactiva los tiempos de inactividad de tus cargas de trabajo.

Para obtener más información, consulta lo siguiente:

Herramientas de supervisión y diagnóstico de clústeres

Para la supervisión y la solución de problemas, las máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) incluyen los siguientes servicios:

Próximos pasos