Servicios de red para implementaciones

En este documento, se describen los servicios de red que configuras para las implementaciones de clústeres y VM de AI Hypercomputer. Los servicios de red específicos que configures para AI Hypercomputer dependerán de la opción de implementación que elijas para tus VMs o clústeres.

Este documento está dirigido a arquitectos, ingenieros de redes y desarrolladores que desean comprender los servicios de red para sus implementaciones de AI Hypercomputer. En este documento, se supone que tienes conocimientos básicos de los conceptos de redes en la nube y procesamiento distribuido. Para obtener más información sobre las opciones de implementación, consulta Descripción general de la creación de VMs y clústeres.

En este documento, se detallan los servicios de red que configuras para las siguientes opciones de implementación:

Configura las redes para las implementaciones predeterminadas de GKE

Cuando creas un clúster de GKE optimizado para IA con la configuración predeterminada, defines la configuración de red en el blueprint de Cluster Toolkit. El plano cambia según el tipo de máquina que selecciones. Por ejemplo, el modelo de Cluster Toolkit implementa un clúster de GKE con una máquina A4.

El plano configura la red de las siguientes maneras:

  • Usa la VPC predeterminada: El blueprint usa la red de nube privada virtual predeterminada para el clúster principal de GKE.
  • Crea dos VPC adicionales: El blueprint configura dos redes de nube privada virtual distintas. Una es para una segunda tarjeta de interfaz de red (NIC) del host, y la otra es para el tráfico de acceso directo a la memoria remoto (RDMA) de unidad de procesamiento gráfico (GPU) a GPU. Con esta configuración de varias VPCs, puedes mejorar el aislamiento de la red. Para obtener más información, consulta Entorno de varias VPC.
  • Define rangos de direcciones IP: El blueprint establece el espacio de direcciones IP privadas para tus nodos de GKE. Configura rangos de IP secundarios para Pods y Services. GKE usa alias de direcciones IP para evitar conflictos de direcciones IP.
  • Aplica un perfil de red optimizado para RDMA: El blueprint aplica un perfil de red preestablecido y administrado por Google a la VPC que se usa para el tráfico de GPU. Este perfil configura automáticamente la red para el rendimiento de alta velocidad y baja demora que necesita RDMA. Para obtener más información, consulta Perfiles de red para casos de uso específicos.
  • Automatiza la creación de subredes para RDMA: Para garantizar el mejor rendimiento, el blueprint crea automáticamente ocho subredes dedicadas dentro de la VPC de RDMA. Se crea una subred para cada una de las ocho NIC de RDMA en una VM con acelerador.
  • Configura reglas de firewall: El blueprint establece reglas de firewall que permiten todo el tráfico del Protocolo de control de transmisión (TCP), el Protocolo de datagramas de usuario (UDP) y el Protocolo de mensajes de control de Internet (ICMP) entre los nodos del clúster. Esto permite que los nodos se comuniquen libremente. También configura un rango de enrutamiento entre dominios sin clases (CIDR) autorizado para limitar el acceso al plano de control del clúster de GKE por motivos de seguridad.

Redes para implementaciones de GKE con configuración personalizada

Cuando necesites un control más detallado que el que proporcionan los esquemas predeterminados de Cluster Toolkit, configura manualmente los objetos de red para un clúster de GKE optimizado para IA. Este enfoque te permite adaptar la configuración de la red a las necesidades específicas de tu carga de trabajo.

La configuración que uses dependerá de si planeas ejecutar cargas de trabajo de IA distribuidas:

  • Para cargas de trabajo no distribuidas: Crea un clúster de GKE sin GPUDirect RDMA. Este método usa una sola red de VPC para toda la comunicación.
  • Para cargas de trabajo distribuidas: Crea un clúster de GKE con GPUDirect RDMA habilitado. Habilitar GPUDirect RDMA es fundamental para lograr un rendimiento óptimo a gran escala. Esta configuración implica un entorno de varias VPCs que separa el tráfico de uso general de la comunicación de GPU a GPU de alto ancho de banda y baja latencia.

Para obtener instrucciones detalladas paso a paso sobre cómo crear un clúster de GKE personalizado optimizado para IA en ambos casos, consulta Crea un clúster de GKE personalizado optimizado para IA.

Redes para implementaciones de clústeres de Slurm

Puedes usar Cluster Toolkit para implementar cargas de trabajo de computación de alto rendimiento (HPC), IA y AA en Google Cloud a través de planos altamente personalizables y extensibles. Por ejemplo, cuando creas un clúster de Slurm optimizado para IA con un tipo de máquina A4. En esta sección, se explican los servicios de red configurados en el blueprint A4, que te ayuda a comprender la configuración de red que puedes cambiar cuando creas clústeres de Slurm.

Durante la implementación, el blueprint de Cluster Toolkit usa Packer para compilar automáticamente una imagen personalizada del sistema operativo (SO). Packer crea la imagen iniciando una VM temporal y ejecutando secuencias de comandos para personalizar el disco de arranque. Puedes personalizar la imagen con secuencias de comandos de inicio, secuencias de comandos de shell o libros de jugadas de Ansible. Luego, el esquema usa esta imagen personalizada para instalar el software del sistema requerido para la administración de clústeres y cargas de trabajo en los nodos de Slurm.

Los componentes de red que configura el blueprint son los siguientes:

  • Crea tres VPC distintas: El blueprint crea una VPC principal para el plano de control de Slurm, una VPC secundaria para el tráfico general a nivel del host y una VPC dedicada de alto rendimiento para la comunicación de GPU a GPU. Esta separación evita que el tráfico de administración interfiera en el plano de datos de la carga de trabajo. Para obtener más información, consulta Entorno de varias VPC.
  • Aplica un perfil de red optimizado para RDMA: Para el plano de datos de GPU, el blueprint aplica un perfil de red preconfigurado y administrado por Google que está optimizado para RoCE. Crea automáticamente ocho subredes, una para cada NIC de RDMA en las VMs de aceleradores. Para obtener más información, consulta Perfiles de red para casos de uso específicos.
  • Reserva un rango de direcciones IP para el almacenamiento compartido: El plano establece un rango de direcciones IP dedicado que requiere el servicio de Filestore. Filestore proporciona el directorio /home compartido para el clúster.
  • Proporciona una red aislada de compilación de imágenes: El blueprint crea una VPC temporal que se usa solo durante el proceso de compilación de la imagen de VM personalizada para los nodos del clúster. Esto proporciona un entorno de red aislado para las operaciones de Packer.

Para obtener más opciones de implementación, consulta la documentación de Cluster Toolkit.

Herramientas de redes para instancias de Compute Engine

Con Compute Engine, puedes crear VMs independientes, instancias de VM de forma masiva y grupos de instancias administrados (MIG) para varios tipos de máquinas optimizadas para aceleradores.

Estos tipos de máquinas requieren una configuración de red de varias VPC para controlar diferentes tipos de tráfico. Esta configuración separa el tráfico general de host a host de la comunicación de GPU a GPU de alto ancho de banda. Los requisitos de red específicos varían según el tipo de máquina.

Para obtener información detallada sobre las NIC y la configuración de red de tu tipo de máquina, consulta Revisa el ancho de banda de la red y la disposición de las NIC.

Si deseas obtener instrucciones paso a paso para crear estas redes de VPC, consulta Crea redes de VPC.

¿Qué sigue?