Los clústeres de entrenamiento de Vertex AI son un servicio administrado que se aprovisiona como una instancia de Compute Engine dentro de tu VPC. Google CloudEste modelo de implementación permite que el servicio se conecte de forma segura a otras cargas de trabajo dentro de tu VPC, a servicios administrados por Google o a redes de varias nubes.
Requisito de MTU de red
Para lograr un rendimiento óptimo de la red para la infraestructura de entrenamiento, debes configurar la unidad de transmisión máxima (MTU) de tu red de VPC.
Configuración recomendada de MTU
El valor de MTU recomendado depende del tipo de máquina de GPU en tu clúster:
- Para nodos A3 Ultra y A4, usa una MTU de 8,896.
- Para nodos A3 Mega, usa una MTU de 8,244.
Puedes crear una VPC nueva o usar una existente.
Implementa clústeres de entrenamiento en una VPC nueva (recomendado)
El enfoque recomendado es implementar el clúster de entrenamiento en una red de VPC nueva y preconfigurada. Esto garantiza que el parámetro de configuración de MTU correcto se aplique automáticamente y evita afectar las cargas de trabajo existentes.
Existen dos pasos principales para implementar clústeres de entrenamiento en una VPC nueva:
Crea la red de VPC: Crea una red de VPC nueva. Para habilitar las tramas jumbo, configura su MTU en 8,896.
Implementa el clúster: Implementa el clúster de entrenamiento en esta red recién configurada.
Si sigues este orden, las instancias de VM del clúster heredarán automáticamente el parámetro de configuración de MTU correcto en su arranque inicial.
Crea y configura una VPC nueva
- Crea la red de VPC. Para habilitar las tramas jumbo, configura NETWORK_MTU
en 8,896.
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - Crea la subred que se usa para implementar el
clúster de entrenamiento y
actualiza el rango según los requisitos de tu entorno. En este ejemplo,
se usa la subred 192.168.0.0/19 para la
implementación del clúster de entrenamiento.
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- Crea una regla de firewall de IAP que permita la conectividad SSH al
clúster de entrenamiento.
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - Crea una regla de firewall de entrada que permita todos los puertos y protocolos a la
subred del clúster de entrenamiento.
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
Implementa clústeres de entrenamiento en una VPC existente
Si implementas el clúster de entrenamiento en una red existente con instancias de Cloud Storage, te recomendamos que uses tramas jumbo (MTU 8,896) para garantizar un rendimiento óptimo. Antes de comenzar, verifica que los sistemas operativos y las aplicaciones de tus VMs existentes puedan admitir este cambio.
La implementación de tramas jumbo requiere que se actualice la MTU de tu VPC, lo que se debe hacer durante un período de mantenimiento planificado para evitar la inestabilidad de la red.
El único procedimiento seguro es detener primero todas las instancias de VM en ejecución en esa red. Si cambias la MTU mientras las VMs están activas, se producirán parámetros de configuración no coincidentes y una conectividad poco confiable.
Una vez que se detengan todas las VMs, puedes continuar con estos pasos:
- Cambia la MTU de la red al parámetro de configuración seleccionado (por ejemplo, 8,896).
- Reinicia todas las VMs después de que se complete la actualización de la red.
- Actualiza manualmente las VMs que no son de Linux. Ten en cuenta que este reinicio no es suficiente para todos los sistemas operativos. Si bien las VMs de imágenes públicas de Linux adoptan automáticamente la nueva MTU, debes actualizar manualmente el parámetro de configuración de MTU dentro del SO para todas las VMs de Windows y cualquier VM de imagen personalizada que no use DHCP para la configuración de MTU.
Requisitos adicionales:
- Habilita el Acceso privado a Google en la subred que se usa para implementar el clúster.
- Crea una regla de firewall de entrada para otorgar acceso de IAP al clúster.
- Crea una regla de firewall de entrada para permitir todo el tráfico al clúster.
¿Qué sigue?
Después de preparar la red de VPC con los parámetros de configuración de MTU y las reglas de firewall correctos, los siguientes pasos son crear y proteger el clúster de entrenamiento.
- Verifica la configuración de tu red: Antes de crear tu clúster, ejecuta una prueba de conectividad para verificar la red de VPC y los parámetros de configuración de MTU, en especial si modificaste una VPC existente.
- Protege tu clúster con un perímetro de servicio: Para mejorar la seguridad de los datos, usa los Controles del servicio de VPC para crear un perímetro de servicio alrededor de tus recursos de Vertex AI. Esto ayuda a evitar el robo de datos.
- Conéctate desde un entorno híbrido o de varias nubes: Para acceder a tu clúster de entrenamiento desde un centro de datos local o una nube pública, usa Google Cloud's opciones para la conectividad híbrida.