Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Capacidades de administración de clústeres

Las series de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega, y A3 High (8 GPUs) están diseñadas para permitirte ejecutar clústeres de inteligencia artificial (IA) y aprendizaje automático (AA) a gran escala y proporcionar las siguientes capacidades de administración de clústeres:

Colocación de recursos de infraestructura de IA
Colocación con reconocimiento de topología de clústeres
Modo operativo de clúster
Programación y controles de mantenimiento de clústeres
Herramientas de supervisión y diagnóstico de clústeres

Colocación de recursos de infraestructura de IA

Cuando usas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), puedes solicitar máquinas host que Compute Engine aprovisione lo más cerca posible. Estas máquinas ofrecen las siguientes funciones:

Compute Engine aprovisiona las máquinas como bloques de recursos.
Una estructura de red de aprendizaje automático (AA) dinámica interconecta las máquinas.

Esta disposición de recursos minimiza los saltos de red y optimiza la latencia de red más baja. Para obtener más información sobre cómo obtener capacidad para implementar bloques de máquinas optimizadas para aceleradores asignados de forma densa, consulta Descripción general de la capacidad.

Colocación con reconocimiento de topología de clústeres

Después de crear instancias de procesamiento con los tipos de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), puedes obtener información de topología a nivel del nodo y del clúster. Esta información te ayuda a hacer lo siguiente:

Ajustar el diseño de tu aplicación o carga de trabajo para minimizar aún más la latencia de la red
Comprender y solucionar problemas de latencia de red y rendimiento para instancias que se comunican con frecuencia entre sí (estos problemas pueden ocurrir si las instancias están ubicadas inesperadamente lejos unas de otras)

Para obtener más información, consulta Cómo ver la topología de las instancias de procesamiento.

Modo operativo de clúster

Cuando reservas capacidad para crear instancias de procesamiento o clústeres con los tipos de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), el tipo de máquina que reservas determina el modo operativo del clúster para las instancias. Este modo especifica cómo se comportan tus instancias después de errores de host o informes de host defectuosos. Los modos operativos disponibles para una instancia son el modo administrado, en el que Compute Engine reemplaza automáticamente cualquier máquina defectuosa , pero retiene parte de la capacidad reservada para garantizar que tus instancias tengan los recursos necesarios para reiniciarse. o el modo de capacidad total, en el que tienes acceso a toda tu capacidad reservada, pero eres responsable de administrar las fallas y el mantenimiento planificado.

Para obtener más información, consulta Modo operativo de reserva.

Programación y controles de mantenimiento de clústeres

Controlas el mantenimiento de las máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) con la programación con reconocimiento de topología en un bloque de recursos. Esta capacidad ayuda a sincronizar las actualizaciones para que tus cargas de trabajo sean más resistentes a los eventos del host y minimizar las interrupciones. Este enfoque ayuda a mejorar el rendimiento útil de tu carga de trabajo.

Para facilitar el control total de los eventos de mantenimiento, puedes usar las siguientes funciones:

Tipo de programación del mantenimiento
Administra eventos del host

Tipo de programación del mantenimiento

Cuando reservas capacidad para crear instancias de procesamiento o clústeres de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs), puedes definir cómo Compute Engine mantiene la infraestructura en la que se ejecutan tus instancias. Según el tipo de máquina que deseas usar para tus instancias, puedes elegir entre el mantenimiento sincronizado en todas las instancias (agrupado) o diferentes programas de mantenimiento (independientes).

Para obtener más información, consulta Tipos de programación del mantenimiento.

Administra eventos del host

Después de crear instancias A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) y comenzar tu carga de trabajo, puedes configurar alertas y recibir notificaciones cuando se programe, comience o complete el mantenimiento de tus instancias o bloques reservados. También puedes ver y, si es necesario, iniciar manualmente el mantenimiento en una instancia o un bloque reservado antes de la hora programada. Estas opciones te ayudan a controlar de forma proactiva y minimizar los tiempos de inactividad de tus cargas de trabajo.

Para obtener más información, consulta lo siguiente:

Herramientas de supervisión y diagnóstico de clústeres

Para la supervisión y la solución de problemas, las máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega y A3 High (8 GPUs) incluyen los siguientes servicios:

Predicción de degradación del estado de la VM, que te ayuda a identificar las VMs que probablemente se degraden en las próximas cinco horas.
Informes de host defectuosos, que puedes usar para marcar problemas con máquinas host individuales.
Compatibilidad con las métricas de Cloud Monitoring, que te ayudan a supervisar las redes y el rendimiento de las GPUs.