Mise en réseau

Si vous êtes intéressé par les clusters d'entraînement Vertex AI, contactez votre représentant commercial pour y accéder.

Les clusters d'entraînement Vertex AI sont un service géré Google Cloudqui est provisionné en tant qu'instance Compute Engine dans votre VPC. Ce modèle de déploiement permet au service de se connecter de manière sécurisée à d'autres charges de travail au sein de votre VPC, à des services gérés par Google ou à des réseaux multicloud.

Exigence concernant la MTU du réseau

Pour optimiser les performances réseau de l'infrastructure d'entraînement, vous devez configurer l'unité de transmission maximale (MTU) de votre réseau VPC.

La valeur MTU recommandée dépend du type de machine GPU de votre cluster :

  • Pour les nœuds A3 Ultra et A4 : utilisez une MTU de 8896.
  • Pour les nœuds A3 Mega : utilisez une MTU de 8244.

Vous pouvez créer un VPC ou en utiliser un existant.

Déployer des clusters d'entraînement dans un nouveau VPC (recommandé)

L'approche recommandée consiste à déployer le cluster d'entraînement dans un nouveau réseau VPC préconfiguré. Cela garantit que le paramètre de MTU correct est appliqué automatiquement et évite d'avoir un impact sur les charges de travail existantes.

Pour déployer des clusters d'entraînement dans un nouveau VPC, vous devez suivre deux étapes principales :

  1. Créez le réseau VPC : Créer un réseau VPC Pour activer les trames géantes, définissez leur MTU sur 8 896.

  2. Déployez le cluster : déployez le cluster d'entraînement dans ce réseau nouvellement configuré.

En suivant cet ordre, les instances de VM du cluster hériteront automatiquement du paramètre MTU approprié lors de leur démarrage initial.

Créer et configurer un VPC

  1. Créez le réseau VPC. Pour activer les trames géantes, définissez NETWORK_MTU sur 8 896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Créez le sous-réseau utilisé pour déployer le cluster d'entraînement et mettez à jour la plage en fonction des exigences de votre environnement. Dans cet exemple, le sous-réseau 192.168.0.0/19 est utilisé pour le déploiement du cluster d'entraînement.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Créez une règle de pare-feu IAP qui autorise la connectivité SSH au cluster d'entraînement.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Créez une règle de pare-feu d'entrée qui autorise tous les ports et protocoles vers le sous-réseau du cluster d'entraînement.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Déployer des clusters d'entraînement dans un VPC existant

Si vous déployez le cluster d'entraînement dans un réseau existant avec des instances Cloud Storage, nous vous recommandons vivement d'utiliser des trames géantes (MTU 8896) pour garantir des performances optimales. Avant de commencer, vérifiez que les systèmes d'exploitation et les applications de vos VM existantes peuvent prendre en charge ce changement.

L'implémentation de trames jumbo nécessite la mise à jour de la MTU de votre VPC, qui doit être effectuée pendant une période de maintenance planifiée pour éviter l'instabilité du réseau.

La seule procédure sûre consiste à arrêter d'abord toutes les instances de VM en cours d'exécution sur ce réseau. Si vous modifiez la MTU alors que les VM sont actives, les paramètres ne correspondront pas et la connectivité ne sera pas fiable.

Une fois toutes les VM arrêtées, vous pouvez procéder comme suit :

  1. Définissez la MTU du réseau sur le paramètre sélectionné (par exemple, 8 896).
  2. Redémarrez toutes les VM une fois la mise à jour du réseau terminée.
  3. Mettez à jour manuellement les VM non Linux. Notez que ce redémarrage n'est pas suffisant pour tous les systèmes d'exploitation. Alors que les VM issues d'images Linux publiques adoptent automatiquement la nouvelle MTU, vous devez mettre à jour manuellement le paramètre de MTU dans l'OS pour toutes les VM Windows et toutes les VM d'image personnalisée qui n'utilisent pas DHCP pour la configuration de la MTU.

Autres exigences :

  • Activez l'accès privé à Google dans le sous-réseau utilisé pour déployer le cluster.
  • Créez une règle de pare-feu d'entrée pour accorder à IAP l'accès au cluster.
  • Créez une règle de pare-feu d'entrée pour autoriser tout le trafic vers le cluster.

Étapes suivantes

Après avoir préparé le réseau VPC avec les paramètres MTU et les règles de pare-feu appropriés, les étapes suivantes consistent à créer et à sécuriser le cluster d'entraînement.

  • Vérifiez la configuration de votre réseau : avant de créer votre cluster, exécutez un test de connectivité pour vérifier les paramètres de votre réseau VPC et de votre MTU, en particulier si vous avez modifié un VPC existant.
  • Sécurisez votre cluster avec un périmètre de service : pour renforcer la sécurité des données, utilisez VPC Service Controls afin de créer un périmètre de service autour de vos ressources Vertex AI. Cela permet d'éviter l'exfiltration de données.
  • Se connecter depuis un environnement hybride ou multicloud : pour accéder à votre cluster d'entraînement depuis un centre de données sur site ou un cloud public, utilisez les options de connectivité hybride deGoogle Cloud.