Las capacidades mejoradas de administración de clústeres de HPC te permiten ejecutar clústeres de HPC a gran escala y con una implementación densa, y proporcionan las siguientes capacidades de administración de clústeres:
- Colocación de recursos de clúster de HPC
- Colocación que tiene en cuenta la topología del clúster
- Modo operativo del clúster
- Programación y controles de mantenimiento del clúster
- Herramientas de supervisión y diagnóstico de clústeres
Colocación de recursos de infraestructura de HPC
Cuando usas las instancias H4D con capacidades de administración mejoradas, puedes solicitar a Compute Engine que aprovisione tus instancias lo más cerca posible. Estas máquinas ofrecen las siguientes funciones:
Compute Engine aprovisiona las máquinas como bloques de recursos.
Mejora de la escalabilidad de la carga de trabajo a través de redes de 200 Gbps habilitadas para RDMA de Cloud.
Esta disposición de recursos minimiza los saltos de red y optimiza la latencia de red más baja. Para obtener más información sobre cómo obtener capacidad para implementar bloques de máquinas asignados de forma densa, consulta Crea un clúster de HPC con capacidades de administración mejoradas.
Colocación que tiene en cuenta la topología del clúster
Después de crear VMs o clústeres de VMs H4D, puedes obtener información de topología a nivel del nodo y del clúster. Esta información te ayuda a hacer lo siguiente:
Ajusta el diseño de tu aplicación o carga de trabajo para minimizar aún más la latencia de la red.
Comprende y soluciona los problemas de rendimiento y latencia de red de las VMs que se comunican con frecuencia entre sí. Estos problemas pueden ocurrir si las VMs se encuentran inesperadamente muy lejos entre sí.
Para obtener más información, consulta Cómo ver la topología de las VMs.
Mantenimiento y recuperación administrados de tus VMs de H4D
Cuando reservas capacidad para crear VMs o clústeres H4D, Google Cloudadministra automáticamente el proceso de mantenimiento y recuperación de tus VMs después de errores del host o informes de host defectuosos. Este enfoque, conocido como modo administrado, es ideal cuando tu carga de trabajo requiere alta estabilidad y necesita un proceso automatizado para minimizar los tiempos de inactividad.
El modo administrado tiene las siguientes características:
Solo usa la capacidad reservada para la recuperación: Compute Engine solo usa tu capacidad reservada para reiniciar las VMs. Si no hay capacidad disponible en tus reservas, Compute Engine solo reiniciará las VMs después de que obtengas más capacidad.
Reinicio automático de la VM: Google Cloud controla todo el proceso de recuperación de una VM. Cuando se requiere mantenimiento del host, Compute Engine migra automáticamente tus VMs a otras máquinas disponibles dentro de tu reserva y las reinicia.
Administración y visibilidad de los bloques: Puedes ver la topología, el estado y el mantenimiento de las reservas individuales y los bloques de reservas. También puedes recibir notificaciones de mantenimiento y, de manera opcional, iniciar el mantenimiento antes de la hora programada para estos recursos.
Posibles límites de frecuencia de la API: Es posible que las llamadas a la API de informes de host defectuoso tengan un límite de frecuencia por reserva.
Controles y programación del mantenimiento del clúster
Puedes controlar el mantenimiento de las instancias H4D con la programación que tiene en cuenta la topología en un bloque de recursos. Esta capacidad ayuda a sincronizar las actualizaciones para que tus cargas de trabajo sean más resistentes a los eventos del host y minimiza las interrupciones.
Para facilitar el control total de los eventos de mantenimiento, puedes usar las siguientes funciones:
Tipo de programación del mantenimiento
Cuando reservas capacidad para crear VMs o clústeres de instancias de VM H4D, puedes definir cómo Compute Engine mantiene la infraestructura en la que se ejecutan tus VMs. Puedes especificar si deseas agrupar las VMs y tener una programación de mantenimiento sincronizada (agrupadas) o si las VMs pueden estar con acoplamiento bajo y tener una programación de mantenimiento independiente (independientes).
Programación de mantenimiento agrupado
El tipo de programación de mantenimiento agrupado ayuda a garantizar que, sin importar cuándo Compute Engine aprovisione una VM, todas las VMs que ejecuten la misma carga de trabajo tengan la misma frecuencia de mantenimiento planificado. Este mantenimiento estrechamente acoplado te permite optimizar el rendimiento de tu trabajo, ya que te brinda control total sobre la capacidad utilizada y sin usar.
Un tipo de programación de mantenimiento de grupo es útil en los siguientes casos:
- Tu entorno usa un programador de trabajos, como Slurm o Google Kubernetes Engine.
- Quieres ejecutar cargas de trabajo de computación altamente paralelizadas.
Programación de mantenimiento independiente
El tipo de programación de mantenimiento independiente les asigna a las VMs diferentes programaciones de mantenimiento. Esta configuración es ideal si tienes cargas de trabajo que se ejecutan de manera más eficiente cuando las VMs tienen programas de mantenimiento separados.
Administra eventos del organizador
Después de crear VMs H4D y comenzar tu carga de trabajo, puedes configurar alertas y recibir notificaciones cuando se programe, inicie o complete el mantenimiento de tus VMs o bloques reservados. También puedes ver y, si es necesario, iniciar manualmente el mantenimiento de una VM o un bloque reservado antes de la hora programada. Estas opciones te ayudan a controlar y minimizar de forma proactiva los tiempos de inactividad de tus cargas de trabajo.
Para obtener más información, consulta lo siguiente:
Herramientas de supervisión y diagnóstico de clústeres
Para la supervisión y la solución de problemas, las instancias de H4D incluyen un servicio de informes de host defectuoso que puedes usar para marcar problemas con máquinas host individuales.
Próximos pasos
Crea un clúster de HPC con capacidades de administración mejoradas usando uno de los siguientes métodos:
Observa y supervisa las VMs en tu clúster de Slurm