Funktionen zur Clusterverwaltung

Die Maschinenserien A4X Max, A4X, A4, A3 Ultra, A3 Mega, und A3 High (8 GPUs) wurden entwickelt, um Ihnen die Ausführung von KI- und ML-Clustern (künstliche Intelligenz und maschinelles Lernen) im großen Maßstab zu ermöglichen. Sie bieten die folgenden Clusterverwaltungsfunktionen:

Colocation von KI-Infrastrukturressourcen

Wenn Sie A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) verwenden, können Sie Hostmaschinen anfordern, die von Compute Engine so nah wie möglich beieinander bereitgestellt werden. Diese Maschinen bieten die folgenden Funktionen:

Diese Ressourcenanordnung minimiert Netzwerk-Hops und optimiert die niedrigste Netzwerklatenz. Weitere Informationen zum Erwerb von Kapazität zum Bereitstellen von dicht zugewiesenen Blöcken beschleunigungsoptimierter Maschinen finden Sie unter Kapazitätsübersicht.

Platzierung unter Berücksichtigung der Clustertopologie

Nachdem Sie Compute-Instanzen mit den Maschinentypen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) erstellt haben, können Sie Topologieinformationen auf Knoten- und Clusterebene abrufen. Diese Informationen helfen Ihnen bei Folgendem:

  • Anpassen des Designs Ihrer Anwendung oder Arbeitslast, um die Netzwerklatenz weiter zu minimieren.

  • Verstehen und Beheben von Problemen mit Netzwerklatenz und ‑leistung für Instanzen, die häufig miteinander kommunizieren. Diese Probleme können auftreten, wenn sich die Instanzen unerwartet weit voneinander entfernt befinden.

Weitere Informationen finden Sie unter Topologie von Compute-Instanzen ansehen.

Clusterbetriebsmodus

Wenn Sie Kapazität reservieren, um Compute-Instanzen oder ‑Cluster mit den Maschinentypen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) zu erstellen, bestimmt der reservierte Maschinentyp den Betriebsmodus des Clusters für die Instanzen. In diesem Modus wird festgelegt, wie sich Ihre Instanzen nach Hostfehlern oder fehlerhaften Hostberichten verhalten. Die verfügbaren Betriebsmodi für eine Instanz sind der verwaltete Modus, in dem Compute Engine alle fehlerhaften Maschinen automatisch ersetzt, aber einen Teil Ihrer reservierten Kapazität zurückhält, um sicherzustellen, dass Ihre Instanzen die erforderlichen Ressourcen für den Neustart haben. Oder der Modus mit voller Kapazität, in dem Sie Zugriff auf Ihre gesamte reservierte Kapazität haben, aber für die Verwaltung von Fehlern und geplanter Wartung verantwortlich sind.

Weitere Informationen finden Sie unter Betriebsmodus der Reservierung.

Clusterwartungsplanung und ‑steuerung

Sie steuern die Wartung von A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Maschinen (8 GPUs) mithilfe der topologieabhängigen Planung in einem Ressourcenblock. Diese Funktion hilft, Upgrades zu synchronisieren, damit Ihre Arbeitslasten widerstandsfähiger gegen Hostereignisse sind und Unterbrechungen minimiert werden. Dieser Ansatz trägt dazu bei, den Nutzdurchsatz Ihrer Arbeitslast zu verbessern.

Um die vollständige Kontrolle über Wartungsereignisse zu haben, können Sie die folgenden Funktionen verwenden:

Wartungsplanungstyp

Wenn Sie Kapazität reservieren, um Compute-Instanzen oder ‑Cluster von A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Maschinen (8 GPUs) zu erstellen, können Sie festlegen, wie Compute Engine die Infrastruktur wartet, auf der Ihre Instanzen ausgeführt werden. Je nach Maschinentyp, den Sie für Ihre Instanzen verwenden möchten, können Sie zwischen synchronisierter Wartung für alle Instanzen (gruppiert) oder verschiedenen Wartungsplänen (unabhängig) wählen.

Weitere Informationen finden Sie unter Wartungsplanungstypen.

Hostereignisse verwalten

Nachdem Sie A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Instanzen (8 GPUs) erstellt und Ihre Arbeitslast gestartet haben, können Sie Benachrichtigungen einrichten und erhalten, wenn die Wartung für Ihre Instanzen oder reservierten Blöcke geplant, gestartet oder abgeschlossen ist. Sie können die Wartung für eine Instanz oder einen reservierten Block auch vor dem geplanten Zeitpunkt ansehen und bei Bedarf manuell starten. Mit diesen Optionen können Sie Ausfallzeiten für Ihre Arbeitslasten proaktiv steuern und minimieren.

Weitere Informationen finden Sie unter:

Cluster-Monitoring- und Diagnosetools

Für Monitoring und Fehlerbehebung umfassen A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Maschinen (8 GPUs) die folgenden Dienste:

Nächste Schritte