Redes

Si te interesan los clústeres de entrenamiento de Vertex AI, comunícate con tu representante de ventas para obtener acceso.

Los clústeres de entrenamiento de Vertex AI son un servicio administrado Google Cloudque se aprovisiona como una instancia de Compute Engine dentro de tu VPC. Este modelo de implementación permite que el servicio se conecte de forma segura a otras cargas de trabajo dentro de tu VPC, a los servicios administrados por Google o a las redes de múltiples nubes.

Requisito de MTU de red

Para lograr un rendimiento óptimo de la red para la infraestructura de entrenamiento, debes configurar la unidad de transmisión máxima (MTU) de tu red de VPC.

El valor de MTU recomendado depende del tipo de máquina con GPU de tu clúster:

  • Para los nodos A3 Ultra y A4, usa una MTU de 8,896.
  • Para los nodos A3 Mega, usa una MTU de 8244.

Puedes crear una VPC nueva o usar una existente.

Implementa clústeres de entrenamiento en una VPC nueva (recomendado)

El enfoque recomendado es implementar el clúster de entrenamiento en una red de VPC nueva y preconfigurada. Esto garantiza que se aplique automáticamente el parámetro de configuración de MTU correcto y evita que se vean afectadas las cargas de trabajo existentes.

Existen dos pasos principales para implementar clústeres de entrenamiento en una VPC nueva:

  1. Crea la red de VPC: Crea una red de VPC nueva. Para habilitar los marcos jumbo, establece su MTU en 8896.

  2. Implementa el clúster: Implementa el clúster de entrenamiento en esta red recién configurada.

Si sigues este orden, las instancias de VM del clúster heredarán automáticamente el parámetro de configuración de MTU correcto durante el inicio inicial.

Debes reiniciar las instancias de VM del clúster para obligarlas a adoptar la nueva MTU de la red.

Crea y configura una VPC nueva

  1. Crea la red de VPC. Para habilitar las tramas jumbo, establece NETWORK_MTU en 8896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Crea la subred que se usa para implementar el clúster de entrenamiento y actualiza el rango según los requisitos de tu entorno. En este ejemplo, la subred 192.168.0.0/19 se usa para la implementación del clúster de entrenamiento.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Crea una regla de firewall de IAP que permita la conectividad SSH al clúster de entrenamiento.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Crea una regla de firewall de entrada que permita todos los puertos y protocolos a la subred del clúster de entrenamiento.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Implementa clústeres de entrenamiento en una VPC existente

Si implementas el clúster de entrenamiento en una red existente con instancias de Cloud Storage, te recomendamos que uses marcos jumbo (MTU 8896) para garantizar un rendimiento óptimo. Antes de comenzar, verifica que los sistemas operativos y las aplicaciones de tus VMs existentes puedan admitir este cambio.

Para implementar tramas jumbo, debes actualizar la MTU de tu VPC, lo que se debe hacer durante un período de mantenimiento planificado para evitar la inestabilidad de la red.

El único procedimiento seguro es detener primero todas las instancias de VM en ejecución en esa red. Si cambias la MTU mientras las VMs están activas, se producirán parámetros de configuración no coincidentes y una conectividad poco confiable.

Una vez que se detengan todas las VMs, puedes continuar con estos pasos:

  1. Cambia la MTU de la red al parámetro de configuración seleccionado (por ejemplo, 8896).
  2. Reinicia todas las VMs después de que se complete la actualización de la red.
  3. Actualiza manualmente las VMs que no son de Linux. Ten en cuenta que este reinicio no es suficiente para todos los sistemas operativos. Si bien las VMs de imágenes públicas de Linux adoptan automáticamente la nueva MTU, debes actualizar manualmente el parámetro de configuración de MTU dentro del SO para todas las VMs de Windows y las VMs de imágenes personalizadas que no usan DHCP para la configuración de MTU.

Otros requisitos:

  • Habilita el Acceso privado a Google en la subred que se usa para implementar el clúster.
  • Crea una regla de firewall de entrada para otorgar acceso a IAP al clúster.
  • Crea una regla de firewall de entrada para permitir todo el tráfico al clúster.

¿Qué sigue?

Después de preparar la red de VPC con la configuración de MTU y las reglas de firewall correctas, los siguientes pasos son crear y proteger el clúster de entrenamiento.