Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Administración mejorada de clústeres de HPC con instancias H4D

Las capacidades mejoradas de administración de clústeres de HPC te permiten ejecutar clústeres de HPC a gran escala y con una implementación densa, y proporcionan las siguientes capacidades de administración de clústeres:

Colocación de recursos de clúster de HPC
Colocación que tiene en cuenta la topología del clúster
Modo operativo del clúster
Programación y controles de mantenimiento del clúster
Herramientas de supervisión y diagnóstico de clústeres

Colocación de recursos de infraestructura de HPC

Cuando usas las instancias H4D con capacidades de administración mejoradas, puedes solicitar a Compute Engine que aprovisione tus instancias lo más cerca posible. Estas máquinas ofrecen las siguientes funciones:

Compute Engine aprovisiona las máquinas como bloques de recursos.
Mejora de la escalabilidad de las cargas de trabajo a través de redes de 200 Gbps habilitadas para RDMA de Cloud.

Esta disposición de recursos minimiza los saltos de red y optimiza la latencia de red más baja. Para obtener más información sobre cómo obtener capacidad para implementar bloques de máquinas asignados de forma densa, consulta Crea un clúster de HPC con capacidades de administración mejoradas.

Colocación con reconocimiento de la topología del clúster

Después de crear VMs o clústeres de VMs H4D, puedes obtener información de topología a nivel del nodo y del clúster. Esta información te ayuda a hacer lo siguiente:

Ajusta el diseño de tu aplicación o carga de trabajo para minimizar aún más la latencia de la red.
Comprende y soluciona los problemas de rendimiento y latencia de red de las VMs que se comunican con frecuencia entre sí. Estos problemas pueden ocurrir si las VMs se encuentran inesperadamente muy lejos entre sí.

Para obtener más información, consulta Cómo ver la topología de una instancia de procesamiento.

Mantenimiento y recuperación administrados de tus VMs de H4D

Cuando reservas capacidad para crear VMs o clústeres H4D, Google Cloudadministra automáticamente el proceso de mantenimiento y recuperación de tus VMs después de errores de host o informes de host defectuosos. Este enfoque, conocido como modo administrado, es ideal cuando tu carga de trabajo requiere alta estabilidad y necesita un proceso automatizado para minimizar los tiempos de inactividad.

El modo administrado tiene las siguientes características:

Solo usa la capacidad reservada para la recuperación: Compute Engine solo usa tu capacidad reservada para reiniciar las VMs. Si no hay capacidad disponible en tus reservas, Compute Engine solo reiniciará las VMs después de que obtengas más capacidad.
Reinicio automático de la VM: Google Cloud controla todo el proceso de recuperación de una VM. Cuando se requiere mantenimiento del host, Compute Engine migra automáticamente tus VMs a otras máquinas disponibles dentro de tu reserva y las reinicia.
Administración y visibilidad de bloques: Puedes ver la topología, el estado y el estado de mantenimiento de las reservas individuales y los bloques de reservas. También puedes recibir notificaciones de mantenimiento y, de manera opcional, iniciar el mantenimiento antes de la hora programada para estos recursos.
Posibles límites de frecuencia de la API: Es posible que las llamadas a la API de informes de host defectuoso tengan un límite de frecuencia por reserva.

Programación y controles de mantenimiento del clúster

Puedes controlar el mantenimiento de las instancias de H4D con la programación que tiene en cuenta la topología en un bloque de recursos. Esta capacidad ayuda a sincronizar las actualizaciones para que tus cargas de trabajo sean más resilientes a los eventos del host y minimiza las interrupciones.

Para facilitar el control total de los eventos de mantenimiento, puedes usar las siguientes funciones:

Tipo de programación del mantenimiento
Administra los eventos del host

Tipo de programación del mantenimiento

Cuando reservas capacidad para crear VMs o clústeres de instancias de VM H4D, puedes definir cómo Compute Engine mantiene la infraestructura en la que se ejecutan tus VMs. Puedes especificar si deseas agrupar las VMs y tener una programación de mantenimiento sincronizada (agrupadas) o si las VMs pueden estar poco acopladas y tener una programación de mantenimiento independiente (independientes).

Programación de mantenimiento agrupado

El tipo de programación de mantenimiento agrupado ayuda a garantizar que, sin importar cuándo Compute Engine aprovisione una VM, todas las VMs que ejecuten la misma carga de trabajo tengan la misma frecuencia de mantenimiento planificado. Este mantenimiento estrechamente acoplado te permite optimizar el rendimiento de tu trabajo, ya que te brinda control total sobre la capacidad utilizada y sin usar.

Un tipo de programación de mantenimiento de grupo es útil en los siguientes casos:

Tu entorno usa un programador de trabajos, como Slurm o Google Kubernetes Engine.
Quieres ejecutar cargas de trabajo de computación altamente paralelizadas.

Programación de mantenimiento independiente

El tipo de programación de mantenimiento independiente les otorga a las VMs diferentes programas de mantenimiento. Esta configuración es ideal si tienes cargas de trabajo que se ejecutan de manera más eficiente cuando las VMs tienen programas de mantenimiento separados.

Administra eventos del organizador

Después de crear VMs H4D y comenzar tu carga de trabajo, puedes configurar alertas y recibir notificaciones cuando se programe, inicie o complete el mantenimiento de tus VMs o bloques reservados. También puedes ver y, si es necesario, iniciar manualmente el mantenimiento de una VM o un bloque reservado antes de la hora programada. Estas opciones te ayudan a controlar y minimizar de forma proactiva los tiempos de inactividad de tus cargas de trabajo.

Para obtener más información, consulta lo siguiente:

Herramientas de supervisión y diagnóstico de clústeres

Para la supervisión y la solución de problemas, las instancias de H4D incluyen un servicio de informes de host defectuoso que puedes usar para marcar problemas con máquinas host individuales.

Próximos pasos

Crea un clúster de HPC con capacidades de administración mejoradas usando uno de los siguientes métodos:
Verifica el consumo de la reserva
Cómo ver la topología del clúster de H4D
Administra los eventos del host en todas las VMs
Administra los eventos del host en todas las reservas
Observa y supervisa las VMs en tu clúster de Slurm
Cómo informar un host defectuoso

Administración mejorada de clústeres de HPC con instancias H4D Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.