In diesem Dokument werden die Netzwerkdienste beschrieben, die Sie für die Bereitstellung von AI Hypercomputer-Clustern und ‑VMs konfigurieren. Die spezifischen Netzwerkdienste, die Sie für AI Hypercomputer konfigurieren, hängen von der Bereitstellungsoption ab, die Sie für Ihre VMs oder Cluster auswählen.
Dieses Dokument richtet sich an Architekten, Netzwerktechniker und Entwickler, die die Netzwerkdienste für ihre AI Hypercomputer-Bereitstellungen verstehen möchten. In diesem Dokument wird davon ausgegangen, dass Sie mit Cloud-Netzwerken und Konzepten für verteiltes Computing vertraut sind. Weitere Informationen zu Bereitstellungsoptionen finden Sie unter VM- und Clustererstellung – Übersicht.
In diesem Dokument werden die Netzwerkdienste beschrieben, die Sie für die folgenden Bereitstellungsoptionen konfigurieren:
- Netzwerkfunktionen für eine GKE-Bereitstellung mit Standardkonfiguration
- Netzwerk für eine GKE-Bereitstellung mit einer benutzerdefinierten Konfiguration
- Netzwerkfunktionen für die Bereitstellung von Slurm-Clustern
- Netzwerk für Compute Engine-Instanzen
Netzwerk für Standard-GKE-Bereitstellungen konfigurieren
Wenn Sie einen KI-optimierten GKE-Cluster mit Standardeinstellungen erstellen, definieren Sie Ihre Netzwerkeinstellungen im Cluster Toolkit-Blueprint. Die Blaupause ändert sich je nach ausgewähltem Maschinentyp. Mit dem Cluster Toolkit-Blueprint wird beispielsweise ein GKE-Cluster mit einer A4-Maschine bereitgestellt.
Der Blueprint richtet das Netzwerk so ein:
- Standard-VPC wird verwendet:Im Blueprint wird das standardmäßige Virtual Private Cloud-Netzwerk für den Haupt-GKE-Cluster verwendet.
- Zwei zusätzliche VPCs erstellen:Mit dem Blueprint werden zwei separate VPC-Netzwerke (Virtual Private Cloud) eingerichtet. Eine ist für eine zweite Host-Netzwerkkarte (Network Interface Card, NIC) und die andere für den GPU-zu-GPU-RDMA-Traffic (Remote Direct Memory Access). Mit dieser Einrichtung mit mehreren VPCs können Sie die Netzwerkisolation verbessern. Weitere Informationen finden Sie unter Multi-VPC-Umgebung.
- Definiert IP-Adressbereiche:Mit dem Blueprint wird der private IP-Adressbereich für Ihre GKE-Knoten festgelegt. Damit werden sekundäre IP-Bereiche für Pods und Dienste konfiguriert. GKE verwendet IP-Alias, um IP-Adresskonflikte zu vermeiden.
- Wendet ein für RDMA optimiertes Netzwerkprofil an:Das Blueprint wendet ein voreingestelltes, von Google verwaltetes Netzwerkprofil auf die VPC an, die für GPU-Traffic verwendet wird. Dieses Profil konfiguriert das Netzwerk automatisch für die hohe Geschwindigkeit und niedrige Latenz, die für RDMA erforderlich sind. Weitere Informationen finden Sie unter Netzwerkprofile für bestimmte Anwendungsfälle.
- Automatisierte Subnetzerstellung für RDMA:Um die bestmögliche Leistung zu erzielen, werden im Blueprint automatisch acht dedizierte Subnetze in der RDMA-VPC erstellt. Für jede der acht RDMA-NICs auf einer Beschleuniger-VM wird ein Subnetz erstellt.
- Firewallregeln konfigurieren:Mit dem Blueprint werden Firewallregeln eingerichtet, die den gesamten TCP‑ (Transmission Control Protocol), UDP‑ (User Datagram Protocol) und ICMP‑Traffic (Internet Control Message Protocol) zwischen Knoten im Cluster zulassen. Dadurch können Knoten frei kommunizieren. Außerdem wird ein autorisierter CIDR-Bereich (Classless Inter-Domain Routing) konfiguriert, um den Zugriff auf die Steuerungsebene des GKE-Cluster aus Sicherheitsgründen einzuschränken.
Netzwerkfunktionen für GKE-Bereitstellungen mit benutzerdefinierter Konfiguration
Wenn Sie eine detailliertere Steuerung benötigen, als die standardmäßigen Cluster Toolkit-Blueprints bieten, konfigurieren Sie die Netzwerkobjekte für einen KI-optimierten GKE-Cluster manuell. So können Sie die Netzwerkeinrichtung an die spezifischen Anforderungen Ihrer Arbeitslast anpassen.
Die Konfiguration, die Sie verwenden, hängt davon ab, ob Sie verteilte KI-Arbeitslasten ausführen möchten:
- Für nicht verteilte Arbeitslasten:Erstellen Sie einen GKE-Cluster ohne GPUDirect RDMA. Bei dieser Methode wird ein einzelnes VPC-Netzwerk für die gesamte Kommunikation verwendet.
- Für verteilte Arbeitslasten:Erstellen Sie einen GKE-Cluster mit aktiviertem GPUDirect RDMA. Die Aktivierung von GPUDirect RDMA ist unerlässlich, um eine optimale Leistung im großen Maßstab zu erzielen. Diese Konfiguration umfasst eine Multi-VPC-Umgebung, in der der allgemeine Traffic von der GPU-zu-GPU-Kommunikation mit hoher Bandbreite und niedriger Latenz getrennt wird.
Eine detaillierte Schritt-für-Schritt-Anleitung zum Erstellen eines benutzerdefinierten KI-optimierten GKE-Clusters für beide Szenarien finden Sie unter Benutzerdefinierten KI-optimierten GKE-Cluster erstellen.
Netzwerkfunktionen für Slurm-Clusterbereitstellungen
Mit dem Cluster Toolkit können Sie HPC-, KI- und ML-Arbeitslasten (High Performance Computing, künstliche Intelligenz, maschinelles Lernen) in Google Cloud über hochgradig anpassbare und erweiterbare Blueprints bereitstellen. Zum Beispiel, wenn Sie einen KI-optimierten Slurm-Cluster mit einem A4-Maschinentyp erstellen. In diesem Abschnitt werden die Netzwerkdienste beschrieben, die im A4-Blueprint konfiguriert sind. So können Sie die Netzwerkeinstellungen nachvollziehen, die Sie beim Erstellen von Slurm-Clustern ändern können.
Bei der Bereitstellung wird mit dem Cluster Toolkit-Blueprint automatisch ein benutzerdefiniertes Betriebssystem-Image (OS) mit Packer erstellt. Packer erstellt das Image, indem eine temporäre VM gestartet und Skripts zum Anpassen des Bootlaufwerks ausgeführt werden. Sie können das Image mit Startskripts, Shell-Skripts oder Ansible-Playbooks anpassen. Der Blueprint verwendet dann dieses benutzerdefinierte Image, um die erforderliche Systemsoftware für die Cluster- und Arbeitslastverwaltung auf den Slurm-Knoten zu installieren.
Die Netzwerkkomponenten, die im Blueprint konfiguriert werden, sind:
- Drei separate VPCs erstellen:Mit dem Blueprint wird eine primäre VPC für die Slurm-Steuerungsebene, eine sekundäre VPC für den allgemeinen Traffic auf Hostebene und eine dedizierte leistungsstarke VPC für die GPU-zu-GPU-Kommunikation erstellt. Durch diese Trennung wird verhindert, dass Verwaltungsdatenverkehr die Datenebene der Arbeitslast beeinträchtigt. Weitere Informationen finden Sie unter Multi-VPC-Umgebung.
- RDMA-optimiertes Netzwerkprofil anwenden:Für die GPU-Datenebene wendet der Blueprint ein vorkonfiguriertes, von Google verwaltetes Netzwerkprofil an, das für RoCE optimiert ist. Es werden automatisch acht Subnetze erstellt, eines für jede RDMA-NIC auf den Accelerator-VMs. Weitere Informationen finden Sie unter Netzwerkprofile für bestimmte Anwendungsfälle.
- Reserviert einen IP-Adressbereich für den freigegebenen Speicher: Das Blueprint legt einen dedizierten IP-Adressbereich fest, der für den Filestore-Dienst erforderlich ist.
Filestore stellt das freigegebene Verzeichnis
/homefür den Cluster bereit. - Isoliertes Netzwerk für die Image-Erstellung: Mit dem Blueprint wird eine temporäre VPC erstellt, die nur während der Erstellung des benutzerdefinierten VM-Images für die Clusterknoten verwendet wird. Dadurch wird eine isolierte Netzwerkumgebung für Packer-Vorgänge bereitgestellt.
Weitere Bereitstellungsoptionen finden Sie in der Dokumentation zum Cluster Toolkit.
Netzwerk für Compute Engine-Instanzen
Mit Compute Engine können Sie eigenständige VMs, VM-Instanzen im Bulk und verwaltete Instanzgruppen (Managed Instance Groups, MIGs) für verschiedene accelerator-optimierte Maschinentypen erstellen.
Für diese Maschinentypen ist eine Multi-VPC-Netzwerkkonfiguration erforderlich, um verschiedene Arten von Traffic zu verarbeiten. Bei dieser Konfiguration wird der allgemeine Host-zu-Host-Traffic von der GPU-zu-GPU-Kommunikation mit hoher Bandbreite getrennt. Die genauen Netzwerkanforderungen variieren je nach Maschinentyp.
Ausführliche Informationen zu den NICs und der Netzwerkkonfiguration für Ihren Maschinentyp finden Sie unter Netzwerkbandbreite und NIC-Anordnung prüfen.
Eine Schritt-für-Schritt-Anleitung zum Erstellen dieser VPC-Netzwerke finden Sie unter VPC-Netzwerke erstellen.
Nächste Schritte
- Informationen zur Ermittlung der besten Bereitstellung für Ihre Arbeitslast finden Sie unter Empfohlene Konfigurationen.
- Informationen zum Anwendungsfall für jede Bereitstellungsoption finden Sie unter Übersicht über die Erstellung von VMs und Clustern.
- Informationen zum Erstellen eines KI-optimierten GKE-Clusters mit Standardkonfiguration finden Sie unter KI-optimierten GKE-Cluster mit Standardkonfiguration erstellen.
- Informationen zum Erstellen eines benutzerdefinierten KI-optimierten GKE-Clusters finden Sie unter Benutzerdefinierten KI-optimierten GKE-Cluster erstellen.
- Informationen zum Erstellen eines KI-optimierten Slurm-Clusters mit einem A4-Maschinentyp finden Sie unter KI-optimierten Slurm-Cluster mit einem A4-Maschinentyp erstellen.
- Informationen zum Erstellen einer KI-optimierten Instanz mit A4 oder A3 Ultra finden Sie unter KI-optimierte Instanz mit A4 oder A3 Ultra erstellen.
- Eine Anleitung zum Erstellen einer KI-optimierten Instanz mit A3 Mega oder A3 High finden Sie unter KI-optimierte Instanz mit A3 Mega oder A3 High erstellen.