Funktionen zur Clusterverwaltung

Die Maschinenserien A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) wurden entwickelt, um Ihnen die Ausführung von KI- und ML-Clustern (künstliche Intelligenz und maschinelles Lernen) im großen Maßstab zu ermöglichen. Sie bieten die folgenden Clusterverwaltungsfunktionen:

Colocation von KI-Infrastrukturressourcen

Wenn Sie A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) verwenden, können Sie Hostmaschinen anfordern, die von Compute Engine so nah wie möglich beieinander bereitgestellt werden. Diese Geräte bieten die folgenden Funktionen:

Diese Ressourcenanordnung minimiert Netzwerk-Hops und bietet die niedrigste Netzwerklatenz. Weitere Informationen zum Abrufen von Kapazität zum Bereitstellen von dicht zugewiesenen Blöcken von beschleunigungsoptimierten Maschinen finden Sie unter Kapazitätsübersicht.

Platzierung unter Berücksichtigung der Clustertopologie

Nachdem Sie Compute-Instanzen mit den Maschinentypen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) erstellt haben, können Sie Topologieinformationen auf Knoten- und Clusterebene abrufen. Diese Informationen helfen Ihnen bei Folgendem:

  • Passen Sie das Design Ihrer Anwendung oder Arbeitslast an, um die Netzwerklatenz weiter zu minimieren.

  • Netzwerklatenz und Leistungsprobleme für Instanzen, die häufig miteinander kommunizieren, verstehen und beheben Diese Probleme können auftreten, wenn die Instanzen unerwartet weit voneinander entfernt sind.

Weitere Informationen finden Sie unter Topologie von Compute-Instanzen ansehen.

Cluster-Betriebsmodus

Wenn Sie Kapazität reservieren, um Compute-Instanzen oder -Cluster mit den Maschinentypen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) zu erstellen, bestimmt der von Ihnen reservierte Maschinentyp den Betriebsmodus des Clusters für die Instanzen. In diesem Modus wird festgelegt, wie sich Ihre Instanzen nach Hostfehlern oder fehlerhaften Hostberichten verhalten. Die verfügbaren Betriebsmodi für eine Instanz sind der verwaltete Modus, in dem Compute Engine fehlerhafte Maschinen automatisch ersetzt, aber einen Teil der reservierten Kapazität zurückhält, um sicherzustellen, dass Ihre Instanzen die erforderlichen Ressourcen für den Neustart haben. Oder Modus mit voller Kapazität, in dem Sie Zugriff auf Ihre gesamte reservierte Kapazität haben, aber für die Verwaltung von Ausfällen und geplanten Wartungsarbeiten verantwortlich sind.

Weitere Informationen finden Sie unter Reservierungsbetriebsmodus.

Planung und Steuerung der Clusterwartung

Sie steuern die Wartung von A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Maschinen (8 GPUs) mithilfe der topologiebewussten Planung in einem Ressourcenblock. Mit dieser Funktion können Sie Upgrades synchronisieren, damit Ihre Arbeitslasten besser auf Hostereignisse reagieren und Unterbrechungen minimiert werden. Dieser Ansatz trägt dazu bei, den effektiven Durchsatz Ihrer Arbeitslast zu verbessern.

Die folgenden Funktionen können Ihnen helfen, Wartungsereignisse vollständig zu steuern:

Typ der Wartungsplanung

Wenn Sie Kapazität reservieren, um Compute-Instanzen oder Cluster von A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3-High-Maschinen (8 GPUs) zu erstellen, können Sie festlegen, wie Compute Engine die Infrastruktur verwaltet, auf der Ihre Instanzen ausgeführt werden. Je nach Maschinentyp, den Sie für Ihre Instanzen verwenden möchten, können Sie zwischen synchronisierter Wartung für alle Instanzen (gruppiert) oder unterschiedlichen Wartungszeitplänen (unabhängig) wählen.

Weitere Informationen finden Sie unter Arten der Wartungsplanung.

Host-Events verwalten

Nachdem Sie A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Instanzen (8 GPUs) erstellt und Ihre Arbeitslast gestartet haben, können Sie Benachrichtigungen einrichten, die Sie informieren, wenn Wartungsarbeiten für Ihre Instanzen oder reservierten Blöcke geplant sind, beginnen oder abgeschlossen werden. Sie können sich auch Wartungen für eine Instanz oder einen reservierten Block ansehen und sie bei Bedarf vor dem geplanten Zeitpunkt manuell starten. Mit diesen Optionen können Sie Ausfallzeiten Ihrer Arbeitslasten proaktiv steuern und minimieren.

Hier finden Sie weitere Informationen:

Tools für Clustermonitoring und ‑diagnose

Für die Überwachung und Fehlerbehebung sind in den Maschinen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) die folgenden Dienste enthalten:

Nächste Schritte