Netzwerk

Wenn Sie sich für Vertex AI-Trainingscluster interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Vertex AI-Trainingscluster sind ein verwalteter Google CloudDienst, der als Compute Engine-Instanz in Ihrer VPC bereitgestellt wird. Dieses Bereitstellungsmodell ermöglicht es dem Dienst, eine sichere Verbindung zu anderen Arbeitslasten in Ihrer VPC, zu von Google verwalteten Diensten oder zu Multi-Cloud-Netzwerken herzustellen.

Anforderung an die Netzwerk-MTU

Um eine optimale Netzwerkleistung für die Trainingsinfrastruktur zu erzielen, müssen Sie die maximale Übertragungseinheit (Maximum Transmission Unit, MTU) Ihres VPC-Netzwerk konfigurieren.

Der empfohlene MTU-Wert hängt vom GPU-Maschinentyp in Ihrem Cluster ab:

  • Für A3 Ultra- und A4-Knoten: Verwenden Sie eine MTU von 8.896.
  • A3 Mega-Knoten: Verwenden Sie eine MTU von 8244.

Sie können entweder eine neue VPC erstellen oder eine vorhandene VPC verwenden.

Trainingscluster in einer neuen VPC bereitstellen (empfohlen)

Es wird empfohlen, den Trainingscluster in einem neuen, vorkonfigurierten VPC-Netzwerk bereitzustellen. So wird sichergestellt, dass die richtige MTU-Einstellung automatisch angewendet wird, ohne dass sich dies auf vorhandene Arbeitslasten auswirkt.

Es gibt zwei Hauptschritte zum Bereitstellen von Trainingsclustern in einer neuen VPC:

  1. VPC-Netzwerk erstellen: Neues VPC-Netzwerk erstellen Wenn Sie Jumbo Frames aktivieren möchten, legen Sie die MTU auf 8.896 fest.

  2. Cluster bereitstellen: Stellen Sie den Trainingscluster in diesem neu konfigurierten Netzwerk bereit.

In dieser Reihenfolge übernehmen die VM-Instanzen des Clusters beim ersten Start automatisch die richtige MTU-Einstellung.

Neue VPC erstellen und einrichten

  1. VPC-Netzwerk erstellen. Wenn Sie Jumbo Frames aktivieren möchten, setzen Sie NETWORK_MTU auf 8.896.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Erstellen Sie das Subnetz, das zum Bereitstellen des Trainingsclusters verwendet wird, und aktualisieren Sie den Bereich entsprechend den Anforderungen Ihrer Umgebung. In diesem Beispiel wird das Subnetz 192.168.0.0/19 für die Bereitstellung des Trainingsclusters verwendet.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Erstellen Sie eine IAP-Firewallregel, die SSH-Verbindungen zum Trainingscluster zulässt.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Erstellen Sie eine Firewallregel für eingehenden Traffic, die alle Ports und Protokolle für das Subnetz des Trainingsclusters zulässt.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Trainingscluster in einer vorhandenen VPC bereitstellen

Wenn Sie den Trainingscluster in einem vorhandenen Netzwerk mit Cloud Storage-Instanzen bereitstellen, sollten Sie Jumbo Frames (MTU 8896) verwenden, um eine optimale Leistung zu erzielen. Prüfen Sie vorab, ob die Betriebssysteme und Anwendungen auf Ihren vorhandenen VMs diese Änderung unterstützen.

Für die Implementierung von Jumbo-Frames muss die MTU Ihrer VPC aktualisiert werden. Dies muss während eines geplanten Wartungsfensters erfolgen, um Netzwerkinstabilität zu vermeiden.

Die einzige sichere Vorgehensweise besteht darin, zuerst alle laufenden VM-Instanzen in diesem Netzwerk zu beenden. Wenn Sie die MTU ändern, während VMs aktiv sind, führt dies zu nicht übereinstimmenden Einstellungen und einer unzuverlässigen Verbindung.

Sobald alle VMs beendet sind, können Sie mit den folgenden Schritten fortfahren:

  1. Ändern Sie die MTU des Netzwerks in die ausgewählte Einstellung (z. B. 8.896).
  2. Starten Sie alle VMs neu, nachdem das Netzwerkupdate abgeschlossen ist.
  3. Nicht-Linux-VMs manuell aktualisieren Beachten Sie, dass dieser Neustart für alle Betriebssysteme nicht ausreicht. Während VMs aus öffentlichen Linux-Images die neue MTU automatisch übernehmen, müssen Sie die MTU-Einstellung im Betriebssystem für alle Windows-VMs und alle VMs mit benutzerdefinierten Images, die kein DHCP für die MTU-Konfiguration verwenden, manuell aktualisieren.

Weitere Anforderungen:

  • Aktivieren Sie den privaten Google-Zugriff im Subnetz, das zum Bereitstellen des Clusters verwendet wird.
  • Erstellen Sie eine Firewallregel für eingehenden Traffic, um IAP-Zugriff auf den Cluster zu gewähren.
  • Erstellen Sie eine Firewallregel für eingehenden Traffic, um den gesamten Traffic zum Cluster zuzulassen.

Nächste Schritte

Nachdem Sie das VPC-Netzwerk mit den richtigen MTU-Einstellungen und Firewallregeln vorbereitet haben, müssen Sie als Nächstes den Trainingscluster erstellen und schützen.

  • Netzwerkkonfiguration prüfen: Bevor Sie Ihren Cluster erstellen, führen Sie einen Verbindungstest aus, um Ihr VPC-Netzwerk und Ihre MTU-Einstellungen zu prüfen, insbesondere wenn Sie ein vorhandenes VPC-Netzwerk geändert haben.
  • Cluster mit einem Dienstperimeter schützen: Verwenden Sie VPC Service Controls, um einen Dienstperimeter für Ihre Vertex AI-Ressourcen zu erstellen und so die Datensicherheit zu erhöhen. Das trägt dazu bei, Daten-Exfiltrationen zu verhindern.
  • Verbindung aus einer Hybrid- oder Multi-Cloud-Umgebung herstellen: Wenn Sie von einem lokalen Rechenzentrum oder einer öffentlichen Cloud aus auf Ihren Trainingscluster zugreifen möchten, verwenden Sie die Optionen vonGoogle Cloudfür die Hybridkonnektivität.