Netzwerkdienste für Bereitstellungen

In diesem Dokument werden die Netzwerkdienste beschrieben, die Sie für die Bereitstellung von AI Hypercomputer-Clustern und ‑VMs konfigurieren. Die spezifischen Netzwerkdienste, die Sie für AI Hypercomputer konfigurieren, hängen von der Bereitstellungsoption ab, die Sie für Ihre VMs oder Cluster auswählen.

Dieses Dokument richtet sich an Architekten, Netzwerktechniker und Entwickler, die die Netzwerkdienste für ihre AI Hypercomputer-Bereitstellungen verstehen möchten. In diesem Dokument wird davon ausgegangen, dass Sie mit Cloud-Netzwerken und Konzepten für verteiltes Computing vertraut sind. Weitere Informationen zu Bereitstellungsoptionen finden Sie unter VM- und Clustererstellung – Übersicht.

In diesem Dokument werden die Netzwerkdienste beschrieben, die Sie für die folgenden Bereitstellungsoptionen konfigurieren:

Netzwerk für Standard-GKE-Bereitstellungen konfigurieren

Wenn Sie einen KI-optimierten GKE-Cluster mit Standardeinstellungen erstellen, definieren Sie die Netzwerkeinstellungen im Cluster Toolkit-Blueprint. Der Blueprint ändert sich je nach ausgewähltem Maschinentyp. Mit dem Cluster Toolkit-Blueprint wird beispielsweise ein GKE-Cluster mit einer A4-Maschine bereitgestellt.

Der Blueprint richtet das Netzwerk auf folgende Weise ein:

  • Verwendet die Standard-VPC:Das Blueprint verwendet das Standard-VPC-Netzwerk für den Haupt-GKE-Cluster.
  • Zwei zusätzliche VPCs werden erstellt:Im Blueprint werden zwei separate VPC-Netzwerke (Virtual Private Cloud) eingerichtet. Eines ist für eine Netzwerkkarte (NIC) als zweiten Host und das andere für GPU-zu-GPU-RDMA-Traffic (Remote Direct Memory Access). Durch die Verwendung dieser Einrichtung mit mehreren VPCs lässt sich die Netzwerkisolation verbessern. Weitere Informationen finden Sie unter Umgebung mit mehreren VPCs.
  • Definiert IP-Adressbereiche:Das Blueprint legt den privaten IP-Adressbereich für Ihre GKE-Knoten fest. Damit werden sekundäre IP-Bereiche für Pods und Dienste konfiguriert. GKE verwendet IP-Adressen-Aliasing, um IP-Adressenkonflikte zu vermeiden.
  • Wendet ein für RDMA optimiertes Netzwerkprofil an:Das Blueprint wendet ein voreingestelltes, von Google verwaltetes Netzwerkprofil auf die VPC an, die für GPU-Traffic verwendet wird. Dieses Profil konfiguriert das Netzwerk automatisch für die hohe Geschwindigkeit und niedrige Verzögerung, die für RDMA erforderlich sind. Weitere Informationen finden Sie unter Netzwerkprofile für bestimmte Anwendungsfälle.
  • Automatisiert die Subnetzerstellung für RDMA:Für optimale Leistung erstellt der Blueprint automatisch acht dedizierte Subnetze innerhalb der RDMA-VPC. Es wird ein Subnetz für jede der acht RDMA-NICs auf einer Beschleuniger-VM erstellt.
  • Konfiguriert Firewallregeln:Das Blueprint richtet Firewallregeln ein, die den gesamten TCP‑ (Transmission Control Protocol), UDP‑ (User Datagram Protocol) und ICMP‑Traffic (Internet Control Message Protocol) zwischen Knoten im Cluster zulassen. Dadurch können Knoten frei kommunizieren. Außerdem wird ein autorisierter CIDR-Bereich (Classless Inter-Domain Routing) konfiguriert, um den Zugriff auf die Steuerungsebene des GKE-Cluster aus Sicherheitsgründen einzuschränken.

Netzwerkfunktionen für GKE-Bereitstellungen mit benutzerdefinierter Konfiguration

Wenn Sie eine genauere Kontrolle benötigen, als die Standard-Cluster Toolkit-Blueprints bieten, können Sie die Netzwerkobjekte für einen KI-optimierten GKE-Cluster manuell konfigurieren. Mit diesem Ansatz können Sie die Netzwerkeinrichtung an die spezifischen Anforderungen Ihrer Arbeitslast anpassen.

Die Konfiguration, die Sie verwenden, hängt davon ab, ob Sie verteilte KI-Arbeitslasten ausführen möchten:

  • Für nicht verteilte Arbeitslasten:Erstellen Sie einen GKE-Cluster ohne GPUDirect RDMA. Bei dieser Methode wird ein einzelnes VPC-Netzwerk für die gesamte Kommunikation verwendet.
  • Für verteilte Arbeitslasten:Erstellen Sie einen GKE-Cluster mit aktiviertem GPUDirect RDMA. Die Aktivierung von GPUDirect RDMA ist unerlässlich, um eine optimale Leistung im großen Maßstab zu erzielen. Diese Konfiguration umfasst eine Umgebung mit mehreren VPCs, in der der Traffic für allgemeine Zwecke von der GPU-zu-GPU-Kommunikation mit hoher Bandbreite und niedriger Latenz getrennt wird.

Eine detaillierte Schritt-für-Schritt-Anleitung zum Erstellen eines benutzerdefinierten KI-optimierten GKE-Clusters für beide Szenarien finden Sie unter Benutzerdefinierten KI-optimierten GKE-Cluster erstellen.

Netzwerkfunktionen für Slurm-Clusterbereitstellungen

Mit dem Cluster Toolkit können Sie Hochleistungs-Computing (HPC), KI- und ML-Arbeitslasten in Google Cloud über hochgradig anpassbare und erweiterbare Blueprints bereitstellen. Beispielsweise beim Erstellen eines KI-optimierten Slurm-Clusters mit einem A4-Maschinentyp. In diesem Abschnitt werden die Netzwerkdienste beschrieben, die im A4-Blueprint konfiguriert sind. So können Sie nachvollziehen, welche Netzwerkeinstellungen Sie beim Erstellen von Slurm-Clustern ändern können.

Während der Bereitstellung wird mit dem Cluster Toolkit-Blueprint mit Packer automatisch ein benutzerdefiniertes Betriebssystem-Image erstellt. Packer erstellt das Image, indem eine temporäre VM gestartet und Skripts zum Anpassen der Bootdisk ausgeführt werden. Sie können das Image mit Startskripts, Shell-Skripts oder Ansible-Playbooks anpassen. Der Blueprint verwendet dann dieses benutzerdefinierte Image, um die erforderliche Systemsoftware für die Cluster- und Arbeitslastverwaltung auf den Slurm-Knoten zu installieren.

Die Netzwerkkomponenten, die im Blueprint konfiguriert werden, sind:

  • Erstellt drei separate VPCs:Mit dem Blueprint wird eine primäre VPC für die Slurm-Steuerungsebene, eine sekundäre VPC für den allgemeinen Traffic auf Hostebene und eine dedizierte leistungsstarke VPC für die GPU-zu-GPU-Kommunikation erstellt. Durch diese Trennung wird verhindert, dass der Verwaltungs-Traffic die Datenebene der Arbeitslast beeinträchtigt. Weitere Informationen finden Sie unter Multi-VPC-Umgebung.
  • RDMA-optimiertes Netzwerkprofil anwenden:Für die GPU-Datenebene wird durch den Blueprint ein vorkonfiguriertes, von Google verwaltetes Netzwerkprofil angewendet, das für RoCE optimiert ist. Es werden automatisch acht Subnetze erstellt, eines für jede RDMA-NIC auf den Accelerator-VMs. Weitere Informationen finden Sie unter Netzwerkprofile für bestimmte Anwendungsfälle.
  • Reserviert einen IP-Adressbereich für den freigegebenen Speicher: Im Blueprint wird ein dedizierter IP-Adressbereich festgelegt, der für den Filestore-Dienst erforderlich ist. Filestore stellt das freigegebene Verzeichnis /home für den Cluster bereit.
  • Isoliertes Netzwerk für die Image-Erstellung: Mit dem Blueprint wird eine temporäre VPC erstellt, die nur während der Erstellung des benutzerdefinierten VM-Images für die Clusterknoten verwendet wird. Dadurch wird eine isolierte Netzwerkumgebung für Packer-Vorgänge bereitgestellt.

Weitere Bereitstellungsoptionen finden Sie in der Cluster Toolkit-Dokumentation.

Netzwerk für Compute Engine-Instanzen

Mit Compute Engine können Sie eigenständige VMs, VM-Instanzen im Bulk und verwaltete Instanzgruppen (Managed Instance Groups, MIGs) für verschiedene accelerator-optimierte Maschinentypen erstellen.

Für diese Maschinentypen ist eine Netzwerkkonfiguration mit mehreren VPCs erforderlich, um verschiedene Arten von Traffic zu verarbeiten. Bei dieser Konfiguration wird der allgemeine Host-zu-Host-Traffic von der GPU-zu-GPU-Kommunikation mit hoher Bandbreite getrennt. Die spezifischen Netzwerkanforderungen variieren je nach Maschinentyp.

Ausführliche Informationen zu den NICs und der Netzwerkkonfiguration für Ihren Maschinentyp finden Sie unter Netzwerkbandbreite und NIC-Anordnung prüfen.

Eine Schritt-für-Schritt-Anleitung zum Erstellen dieser VPC-Netzwerke finden Sie unter VPC-Netzwerke erstellen.

Nächste Schritte