Netzwerk

Wenn Sie sich für Gemini Enterprise Agent Platform-Trainingscluster interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Gemini Enterprise Agent Platform-Trainingscluster ist ein verwalteter Google Cloud Dienst, der als Compute Engine-Instanz in Ihrer VPC bereitgestellt wird. Mit diesem Bereitstellungsmodell kann der Dienst eine sichere Verbindung zu anderen Arbeitslasten in Ihrer VPC, zu von Google verwalteten Diensten oder zu Multi-Cloud-Netzwerken herstellen.

MTU-Anforderung für das Netzwerk

Um eine optimale Netzwerkleistung für die Trainingsinfrastruktur zu erzielen, müssen Sie die maximale Übertragungseinheit (Maximum Transmission Unit, MTU) Ihres VPC-Netzwerk konfigurieren.

Der empfohlene MTU-Wert hängt vom GPU-Maschinentyp in Ihrem Cluster ab:

  • Für A3 Ultra- und A4-Knoten: Verwenden Sie eine MTU von 8896.
  • Für A3 Mega-Knoten: Verwenden Sie eine MTU von 8244.

Sie können entweder eine neue VPC erstellen oder eine vorhandene VPC verwenden.

Trainingscluster in einer neuen VPC bereitstellen (empfohlen)

Der empfohlene Ansatz besteht darin, den Trainingscluster in einem neuen, vorkonfigurierten VPC-Netzwerk bereitzustellen. So wird sichergestellt, dass die richtige MTU-Einstellung automatisch angewendet wird, und Auswirkungen auf vorhandene Arbeitslasten werden vermieden.

Es gibt zwei Hauptschritte zum Bereitstellen von Trainingsclustern in einer neuen VPC:

  1. VPC-Netzwerk erstellen: Erstellen Sie ein neues VPC-Netzwerk. Setzen Sie die MTU auf 8896, um Jumbo Frames zu aktivieren.

  2. Cluster bereitstellen: Stellen Sie den Trainingscluster in diesem neu konfigurierten Netzwerk bereit.

Wenn Sie diese Reihenfolge einhalten, übernehmen die VM-Instanzen des Clusters beim ersten Start automatisch die richtige MTU-Einstellung.

Neue VPC erstellen und einrichten

  1. Erstellen Sie das VPC-Netzwerk. Setzen Sie NETWORK_MTU auf 8896, um Jumbo Frames zu aktivieren.
        # create VPC network
        gcloud compute networks create NETWORK \
          --project=PROJECT_ID \
          --subnet-mode=custom \
          --mtu=NETWORK_MTU
        
  2. Erstellen Sie das Subnetz, das zum Bereitstellen des Trainingsclusters verwendet wird, und aktualisieren Sie den Bereich entsprechend den Anforderungen Ihrer Umgebung. In diesem Beispiel, wird das Subnetz 192.168.0.0/19 für die Bereitstellung des Trainingsclusters verwendet.
        # create VPC subnet
        gcloud compute networks subnets create SUBNETWORK \
          --project=PROJECT_ID \
          --network=NETWORK \
          --region=REGION \
          --enable-private-ip-google-access \
          --range=192.168.0.0/19
        
  3. Erstellen Sie eine IAP-Firewallregel, die SSH-Verbindungen zum Trainingscluster zulässt.
        gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
        --direction=INGRESS   --action=allow   --rules=tcp:22 \
        --source-ranges=35.235.240.0/20 --network NETWORK
        
  4. Erstellen Sie eine Firewallregel für eingehenden Traffic, die alle Ports und Protokolle zum Subnetz des Trainingsclusters zulässt.
       gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
       --direction=INGRESS --priority=1000 --network=NETWORK \
       --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
       --source-ranges=192.168.0.0/19 --enable-logging
       

Trainingscluster in einer vorhandenen VPC bereitstellen

Wenn Sie den Trainingscluster in einem vorhandenen Netzwerk mit Cloud Storage-Instanzen bereitstellen, sollten Sie Jumbo Frames (MTU 8896) verwenden, um eine optimale Leistung zu erzielen. Prüfen Sie vorab, ob die Betriebssysteme und Anwendungen auf Ihren vorhandenen VMs diese Änderung unterstützen.

Für die Implementierung von Jumbo Frames muss die MTU Ihrer VPC aktualisiert werden. Dies muss während eines geplanten Wartungsfensters erfolgen, um eine Instabilität des Netzwerks zu vermeiden.

Die einzige sichere Vorgehensweise besteht darin, zuerst alle ausgeführten VM-Instanzen in diesem Netzwerk zu beenden. Wenn Sie die MTU ändern, während VMs aktiv sind, führt dies zu nicht übereinstimmenden Einstellungen und einer unzuverlässigen Verbindung.

Sobald alle VMs beendet sind, können Sie mit den folgenden Schritten fortfahren:

  1. Ändern Sie die MTU des Netzwerks in die ausgewählte Einstellung (z. B. 8896).
  2. Starten Sie alle VMs neu, nachdem das Netzwerkupdate abgeschlossen ist.
  3. Aktualisieren Sie Nicht-Linux-VMs manuell. Beachten Sie, dass dieser Neustart für alle Betriebssysteme nicht ausreicht. Während VMs aus öffentlichen Linux-Images automatisch die neue MTU übernehmen, müssen Sie die MTU-Einstellung im Betriebssystem für alle Windows-VMs und alle VMs mit benutzerdefinierten Images, die kein DHCP für die MTU-Konfiguration verwenden, manuell aktualisieren.

Weitere Anforderungen:

  • Aktivieren Sie den privaten Google-Zugriff im Subnetz, das zum Bereitstellen des Clusters verwendet wird.
  • Erstellen Sie eine Firewallregel für eingehenden Traffic, um dem IAP Zugriff auf den Cluster zu gewähren.
  • Erstellen Sie eine Firewallregel für eingehenden Traffic, um den gesamten Traffic zum Cluster zuzulassen.

Nächste Schritte

Nachdem Sie das VPC-Netzwerk mit den richtigen MTU-Einstellungen und Firewallregeln vorbereitet haben, müssen Sie den Trainingscluster erstellen und schützen.

  • Netzwerkkonfiguration prüfen: Führen Sie vor dem Erstellen des Clusters einen Verbindungstest aus, um Ihre VPC-Netzwerk- und MTU-Einstellungen zu prüfen, insbesondere wenn Sie eine vorhandene VPC geändert haben.
  • Cluster mit einem Dienstperimeter schützen: Verwenden Sie VPC Service Controls, um einen Dienstperimeter für Ihre Vertex AI-Ressourcen zu erstellen und so die Datensicherheit zu erhöhen. Das trägt dazu bei, Daten-Exfiltration zu verhindern.
  • Verbindung aus einer Hybrid- oder Multi-Cloud-Umgebung herstellen: Wenn Sie von einem lokalen Rechenzentrum oder einer öffentlichen Cloud auf Ihren Trainings Cluster zugreifen möchten, verwenden Sie Google Cloud's Optionen für die Hybridkonnektivität.