Los clústeres de entrenamiento de Vertex AI son un servicio gestionado Google Cloud que se aprovisiona como una instancia de Compute Engine en tu VPC. Este modelo de implementación permite que el servicio se conecte de forma segura a otras cargas de trabajo de tu VPC, a servicios gestionados por Google o a redes multicloud.
Requisito de MTU de red
Para conseguir un rendimiento de red óptimo en la infraestructura de entrenamiento, debes configurar la unidad de transmisión máxima (MTU) de tu red de VPC.
Configuración de MTU recomendada
El valor de MTU recomendado depende del tipo de máquina con GPU de tu clúster:
- En los nodos A3 Ultra y A4, usa una MTU de 8896.
- En los nodos A3 Mega, usa una MTU de 8244.
Puedes crear una VPC o usar una que ya tengas.
Desplegar clústeres de entrenamiento en una VPC nueva (opción recomendada)
Lo recomendable es desplegar el clúster de entrenamiento en una red de VPC nueva y preconfigurada. De esta forma, se aplica automáticamente el ajuste de MTU correcto y no se ven afectadas las cargas de trabajo.
Hay dos pasos principales para implementar clústeres de entrenamiento en una VPC nueva:
Crea la red de VPC: Crear una red de VPC. Para habilitar los marcos jumbo, asigna el valor 8896 a su MTU.
Despliega el clúster: despliega el clúster de entrenamiento en esta red recién configurada.
Siguiendo este orden, las instancias de VM del clúster heredarán automáticamente el ajuste de MTU correcto al arrancar por primera vez.
Crear y configurar una red VPC
- Crea la red de VPC. Para habilitar los marcos jumbo, asigna el valor 8896 a NETWORK_MTU.
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - Crea la subred que se usará para implementar el clúster de entrenamiento y actualiza el intervalo en función de los requisitos de tu entorno. En este ejemplo, se usa la subred 192.168.0.0/19 para el despliegue del clúster de entrenamiento.
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- Crea una regla de cortafuegos de IAP que permita la conectividad SSH al clúster de entrenamiento.
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - Crea una regla de cortafuegos de entrada que permita todos los puertos y protocolos a la subred del clúster de entrenamiento.
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
Desplegar clústeres de entrenamiento en una VPC
Si vas a implementar el clúster de entrenamiento en una red que ya tenga instancias de Cloud Storage, te recomendamos que uses tramas jumbo (MTU 8896) para que el rendimiento sea óptimo. Antes de empezar, comprueba que los sistemas operativos y las aplicaciones de tus máquinas virtuales actuales admiten este cambio.
Para implementar tramas gigantes, debes actualizar la MTU de tu VPC, lo que debes hacer durante una ventana de mantenimiento programada para evitar la inestabilidad de la red.
El único procedimiento seguro es detener primero todas las instancias de VM que se estén ejecutando en esa red. Si cambias la MTU mientras las VMs están activas, los ajustes no coincidirán y la conectividad no será fiable.
Una vez que se hayan detenido todas las máquinas virtuales, puedes seguir estos pasos:
- Cambia la MTU de la red al ajuste que hayas seleccionado (por ejemplo, 8896).
- Reinicia todas las VMs una vez que se haya completado la actualización de la red.
- Actualiza manualmente las máquinas virtuales que no sean Linux. Ten en cuenta que este reinicio no es suficiente para todos los sistemas operativos. Aunque las máquinas virtuales de imágenes públicas de Linux adoptan automáticamente el nuevo MTU, debes actualizar manualmente el ajuste de MTU en el SO de todas las máquinas virtuales de Windows y de las máquinas virtuales de imágenes personalizadas que no usen DHCP para la configuración de MTU.
Otros requisitos:
- Habilita Acceso privado de Google en la subred que se usa para implementar el clúster.
- Crea una regla de cortafuegos de entrada para conceder acceso de IAP al clúster.
- Crea una regla de cortafuegos de entrada para permitir todo el tráfico al clúster.
Siguientes pasos
Una vez que hayas preparado la red de VPC con los ajustes de MTU y las reglas de cortafuegos correctos, los siguientes pasos consisten en crear y proteger el clúster de entrenamiento.
- Verifica la configuración de tu red: antes de crear el clúster, ejecuta una prueba de conectividad para verificar la red de VPC y los ajustes de MTU, sobre todo si has modificado una VPC.
- Protege tu clúster con un perímetro de servicio: para mejorar la seguridad de los datos, usa Controles de Servicio de VPC para crear un perímetro de servicio en torno a tus recursos de Vertex AI. Esto ayuda a evitar la filtración de datos.
- Conectarse desde un entorno híbrido o multinube: para acceder a tu clúster de entrenamiento desde un centro de datos local o una nube pública, usa las opciones de conectividad híbrida deGoogle Cloud.