Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Netzwerk

Wenn Sie sich für Trainingscluster der Gemini Enterprise Agent Platform interessieren, wenden Sie sich an Ihren Vertriebsmitarbeiter, um Zugriff zu erhalten.

Gemini Enterprise Agent Platform-Trainingscluster sind ein verwalteter Google Cloud-Dienst, der als Compute Engine-Instanz in Ihrer VPC bereitgestellt wird. Dieses Bereitstellungsmodell ermöglicht es dem Dienst, eine sichere Verbindung zu anderen Arbeitslasten in Ihrer VPC, zu von Google verwalteten Diensten oder zu Multi-Cloud-Netzwerken herzustellen.

MTU-Anforderung für das Netzwerk

Um eine optimale Netzwerkleistung für die Trainingsinfrastruktur zu erzielen, müssen Sie die maximale Übertragungseinheit (Maximum Transmission Unit, MTU) Ihres VPC-Netzwerk konfigurieren.

Empfohlene MTU-Einstellungen

Der empfohlene MTU-Wert hängt vom GPU-Maschinentyp in Ihrem Cluster ab:

Für A3 Ultra- und A4-Knoten: Verwenden Sie eine MTU von 8.896.
A3 Mega-Knoten: Verwenden Sie eine MTU von 8244.

Sie können entweder eine neue VPC erstellen oder eine vorhandene VPC verwenden.

Trainingscluster in einer neuen VPC bereitstellen (empfohlen)

Es wird empfohlen, den Trainingscluster in einem neuen, vorkonfigurierten VPC-Netzwerk bereitzustellen. So wird sichergestellt, dass die richtige MTU-Einstellung automatisch angewendet wird, ohne dass vorhandene Arbeitslasten beeinträchtigt werden.

Es gibt zwei Hauptschritte zum Bereitstellen von Trainingsclustern in einer neuen VPC:

VPC-Netzwerk erstellen: Neues VPC-Netzwerk erstellen. Wenn Sie Jumbo Frames aktivieren möchten, legen Sie die MTU auf 8.896 fest.
Cluster bereitstellen: Stellen Sie den Trainingscluster in diesem neu konfigurierten Netzwerk bereit.

In dieser Reihenfolge übernehmen die VM-Instanzen des Clusters beim ersten Start automatisch die richtige MTU-Einstellung.

Neue VPC erstellen und einrichten

VPC-Netzwerk erstellen. Wenn Sie Jumbo-Frames aktivieren möchten, setzen Sie NETWORK_MTU auf 8896.

    # create VPC network
    gcloud compute networks create NETWORK \
      --project=PROJECT_ID \
      --subnet-mode=custom \
      --mtu=NETWORK_MTU

Erstellen Sie das Subnetz, das zum Bereitstellen des Trainingsclusters verwendet wird, und aktualisieren Sie den Bereich entsprechend den Anforderungen Ihrer Umgebung. In diesem Beispiel wird das Subnetz 192.168.0.0/19 für die Bereitstellung des Trainingsclusters verwendet.

    # create VPC subnet
    gcloud compute networks subnets create SUBNETWORK \
      --project=PROJECT_ID \
      --network=NETWORK \
      --region=REGION \
      --enable-private-ip-google-access \
      --range=192.168.0.0/19

Erstellen Sie eine IAP-Firewallregel, die SSH-Verbindungen zum Trainingscluster zulässt.

    gcloud compute firewall-rules create allow-ssh-ingress-from-iap \
    --direction=INGRESS   --action=allow   --rules=tcp:22 \
    --source-ranges=35.235.240.0/20 --network NETWORK

Erstellen Sie eine Firewallregel für eingehenden Traffic, die alle Ports und Protokolle für das Subnetz des Trainingsclusters zulässt.

   gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \
   --direction=INGRESS --priority=1000 --network=NETWORK \
   --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \
   --source-ranges=192.168.0.0/19 --enable-logging

Trainingscluster in einer vorhandenen VPC bereitstellen

Wenn Sie den Trainingscluster in einem vorhandenen Netzwerk mit Cloud Storage-Instanzen bereitstellen, sollten Sie unbedingt Jumbo Frames (MTU 8896) verwenden, um eine optimale Leistung zu erzielen. Prüfen Sie vorab, ob die Betriebssysteme und Anwendungen auf Ihren vorhandenen VMs diese Änderung unterstützen.

Für die Implementierung von Jumbo-Frames muss die MTU Ihrer VPC aktualisiert werden. Dies muss während eines geplanten Wartungsfensters erfolgen, um Netzwerkinstabilität zu vermeiden.

Die einzige sichere Vorgehensweise besteht darin, zuerst alle laufenden VM-Instanzen in diesem Netzwerk zu beenden. Wenn Sie die MTU ändern, während VMs aktiv sind, führt dies zu nicht übereinstimmenden Einstellungen und einer unzuverlässigen Verbindung.

Sobald alle VMs beendet sind, können Sie mit den folgenden Schritten fortfahren:

Ändern Sie die MTU des Netzwerks in die ausgewählte Einstellung (z. B. 8.896).
Starten Sie alle VMs neu, nachdem das Netzwerkupdate abgeschlossen ist.
Nicht-Linux-VMs manuell aktualisieren Beachten Sie, dass dieser Neustart für alle Betriebssysteme nicht ausreicht. Während VMs aus öffentlichen Linux-Images die neue MTU automatisch übernehmen, müssen Sie die MTU-Einstellung im Betriebssystem für alle Windows-VMs und alle VMs mit benutzerdefinierten Images, die kein DHCP für die MTU-Konfiguration verwenden, manuell aktualisieren.

Weitere Anforderungen:

Aktivieren Sie den privaten Google-Zugriff im Subnetz, das zum Bereitstellen des Clusters verwendet wird.
Erstellen Sie eine Firewallregel für eingehenden Traffic, um IAP-Zugriff auf den Cluster zu gewähren.
Erstellen Sie eine Firewallregel für eingehenden Traffic, um den gesamten Traffic zum Cluster zuzulassen.

Nächste Schritte

Nachdem Sie das VPC-Netzwerk mit den richtigen MTU-Einstellungen und Firewallregeln vorbereitet haben, müssen Sie als Nächstes den Trainingscluster erstellen und schützen.

Netzwerkkonfiguration prüfen: Bevor Sie Ihren Cluster erstellen, führen Sie einen Verbindungstest aus, um Ihr VPC-Netzwerk und Ihre MTU-Einstellungen zu prüfen, insbesondere wenn Sie ein vorhandenes VPC-Netzwerk geändert haben.
Cluster mit einem Dienstperimeter schützen: Für eine höhere Datensicherheit können Sie mit VPC Service Controls einen Dienstperimeter für Ihre Gemini Enterprise Agent Platform-Ressourcen erstellen. Das trägt dazu bei, Daten-Exfiltrationen zu verhindern.
- Weitere Informationen zu VPC Service Controls mit der Gemini Enterprise Agent Platform
Verbindung aus einer Hybrid- oder Multi-Cloud-Umgebung herstellen: Wenn Sie von einem lokalen Rechenzentrum oder einer öffentlichen Cloud aus auf Ihren Trainingscluster zugreifen möchten, verwenden Sie die Optionen vonGoogle Cloudfür die Hybridkonnektivität.
- Informationen zu Cloud VPN
- Mehr über Cloud Interconnect erfahren