Las funciones mejoradas de gestión de clústeres de HPC te permiten ejecutar clústeres de HPC a gran escala y con una alta densidad de implementación, así como disfrutar de las siguientes funciones de gestión de clústeres:
- Colocación de recursos de clústeres de HPC
- Colocación con reconocimiento de la topología de clúster
- Modo de funcionamiento del clúster
- Programación y controles de mantenimiento de clústeres
- Herramientas de monitorización y diagnóstico de clústeres
Colocación de recursos de infraestructura de HPC
Cuando usas las instancias H4D con funciones de gestión mejoradas, puedes solicitar a Compute Engine que aprovisione tus instancias lo más cerca posible. Estas máquinas ofrecen las siguientes funciones:
Compute Engine aprovisiona las máquinas como bloques de recursos.
Mejora de la escalabilidad de las cargas de trabajo gracias a la red de 200 Gbps habilitada para Cloud RDMA.
Esta disposición de los recursos minimiza los saltos de red y optimiza la latencia de red más baja. Para obtener más información sobre cómo obtener capacidad para implementar bloques de máquinas asignados de forma densa, consulta Crear un clúster de HPC con funciones de gestión mejoradas.
Colocación con reconocimiento de la topología del clúster
Después de crear VMs o clústeres de VMs H4D, puede obtener información de topología a nivel de nodo y de clúster. Esta información te ayuda a hacer lo siguiente:
Ajusta el diseño de tu aplicación o carga de trabajo para minimizar aún más la latencia de la red.
Entender y solucionar problemas de latencia y rendimiento de la red de las máquinas virtuales que se comunican entre sí con frecuencia. Estos problemas pueden producirse si las VMs están situadas a una distancia inesperada.
Para obtener más información, consulta Ver la topología de las VMs.
Mantenimiento y recuperación gestionados de tus máquinas virtuales H4D
Cuando reservas capacidad para crear VMs o clústeres H4D, Google Cloud gestiona automáticamente el proceso de mantenimiento y recuperación de tus VMs después de que se produzcan errores en el host o se reciban informes de hosts defectuosos. Este enfoque, denominado modo gestionado, es ideal cuando tu carga de trabajo requiere una alta estabilidad y necesita un proceso automatizado para minimizar los tiempos de inactividad.
El modo gestionado tiene las siguientes funciones:
Usar solo la capacidad reservada para la recuperación: Compute Engine solo usa tu capacidad reservada para reiniciar las VMs. Si no hay capacidad disponible en tus reservas, Compute Engine solo reiniciará las VMs después de que obtengas más capacidad.
Reinicio automático de VMs: Google Cloud gestiona todo el proceso de recuperación de una VM. Cuando se requiere mantenimiento del host, Compute Engine migra automáticamente tus VMs a otras máquinas disponibles de tu reserva y las reinicia.
Gestión y visibilidad de los bloques: puedes ver la topología, el estado y el estado de mantenimiento de las reservas y los bloques de reservas concretos. También puedes recibir notificaciones de mantenimiento y, opcionalmente, iniciar el mantenimiento antes de la hora programada para estos recursos.
Posibles límites de frecuencia de la API: las llamadas a la API de informes de anfitrión defectuoso pueden tener un límite de frecuencia por reserva.
Programación y controles de mantenimiento de clústeres
Puedes controlar el mantenimiento de las instancias H4D mediante la programación con reconocimiento de la topología en un bloque de recursos. Esta función ayuda a sincronizar las actualizaciones para que tus cargas de trabajo sean más resistentes a los eventos del host y se minimicen las interrupciones.
Para facilitar el control total de los eventos de mantenimiento, puedes usar las siguientes funciones:
Tipo de programación de mantenimiento
Cuando reservas capacidad para crear VMs o clústeres de instancias de VM H4D, puedes definir cómo mantiene Compute Engine la infraestructura en la que se ejecutan tus VMs. Puedes especificar si quieres agrupar las VMs y programar el mantenimiento de forma sincronizada (agrupado) o si las VMs pueden estar poco acopladas y tener una programación de mantenimiento independiente (independiente).
Programación de mantenimiento agrupada
El tipo de programación de mantenimiento agrupado ayuda a asegurar que, independientemente de cuándo aprovisione Compute Engine una VM, todas las VMs que ejecuten la misma carga de trabajo tengan la misma frecuencia de mantenimiento programado. Este mantenimiento estrechamente acoplado te permite optimizar el rendimiento de tu trabajo, ya que te ofrece un control total sobre la capacidad que usas y la que no.
Un tipo de programación de mantenimiento de grupos es útil en los siguientes casos:
- Tu entorno usa un programador de tareas, como Slurm o Google Kubernetes Engine.
- Quieres ejecutar cargas de trabajo de computación altamente paralelizadas.
Programación de mantenimiento independiente
El tipo de programación de mantenimiento independiente asigna diferentes programaciones de mantenimiento a las VMs. Esta configuración es ideal si tienes cargas de trabajo que se ejecutan de forma más eficiente cuando las VMs tienen programaciones de mantenimiento independientes.
Gestionar eventos de anfitrión
Después de crear las VMs H4D e iniciar tu carga de trabajo, puedes configurar alertas y recibir notificaciones cuando se programe, inicie o complete el mantenimiento de tus VMs o bloques reservados. También puedes ver y, si es necesario, iniciar manualmente el mantenimiento de una VM o un bloque reservado antes de la hora programada. Estas opciones te ayudan a controlar y minimizar de forma proactiva los tiempos de inactividad de tus cargas de trabajo.
Para obtener más información, consulta las siguientes secciones:
Herramientas de monitorización y diagnóstico de clústeres
Para monitorizar y solucionar problemas, las instancias H4D incluyen un servicio de informes de hosts defectuosos, que puedes usar para marcar problemas con máquinas host concretas.
Siguientes pasos
Crea un clúster de HPC con funciones de gestión de clústeres mejoradas mediante uno de los siguientes métodos:
Observar y monitorizar las VMs de tu clúster de Slurm