Die Maschinenserien A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) wurden entwickelt, um Ihnen die Ausführung von KI- und ML-Clustern (künstliche Intelligenz und maschinelles Lernen) im großen Maßstab zu ermöglichen. Sie bieten die folgenden Clusterverwaltungsfunktionen:
- Colocation von KI-Infrastrukturressourcen
- Cluster-Topologie-basierte Platzierung
- Clusterbetriebsmodus
- Planung und Steuerung der Clusterwartung
- Tools für die Clusterüberwachung und ‑diagnose
Colocation von KI-Infrastrukturressourcen
Wenn Sie A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-VMs (8 GPUs) verwenden, können Sie Hostmaschinen anfordern, die von Compute Engine so nah wie möglich beieinander bereitgestellt werden. Diese Maschinen bieten die folgenden Funktionen:
Compute Engine stellt die Maschinen als Ressourcenblöcke bereit.
Ein dynamisches Netzwerk für maschinelles Lernen (ML) verbindet die Maschinen.
Diese Ressourcenanordnung minimiert Netzwerk-Hops und optimiert für die niedrigste Netzwerklatenz. Weitere Informationen zum Abrufen von Kapazität zum Bereitstellen von dicht zugewiesenen Blöcken von beschleunigungsoptimierten Maschinen finden Sie unter Kapazitätsübersicht.
Platzierung unter Berücksichtigung der Clustertopologie
Nachdem Sie Compute-Instanzen mit den Maschinentypen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) erstellt haben, können Sie Topologieinformationen auf Knoten- und Clusterebene abrufen. Diese Informationen helfen Ihnen bei Folgendem:
Passen Sie das Design Ihrer Anwendung oder Arbeitslast an, um die Netzwerklatenz weiter zu minimieren.
Probleme mit der Netzwerklatenz und Leistung für Instanzen, die häufig miteinander kommunizieren, verstehen und beheben. Diese Probleme können auftreten, wenn sich die Instanzen unerwartet weit voneinander entfernt befinden.
Weitere Informationen finden Sie unter Topologie von Compute-Instanzen ansehen.
Cluster-Betriebsmodus
Wenn Sie Kapazität reservieren, um Compute-Instanzen oder Cluster mit den Maschinentypen A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) zu erstellen, bestimmt der von Ihnen reservierte Maschinentyp den Betriebsmodus des Clusters für die Instanzen. In diesem Modus wird festgelegt, wie sich Ihre Instanzen nach Hostfehlern oder fehlerhaften Hostberichten verhalten. Die verfügbaren Betriebsmodi für eine Instanz sind der verwaltete Modus, in dem Compute Engine automatisch alle fehlerhaften Maschinen ersetzt, aber einen Teil der reservierten Kapazität zurückhält, um sicherzustellen, dass Ihre Instanzen die erforderlichen Ressourcen für den Neustart haben. Oder Modus mit voller Kapazität, in dem Sie Zugriff auf Ihre gesamte reservierte Kapazität haben, aber für die Verwaltung von Ausfällen und geplanten Wartungsarbeiten verantwortlich sind.
Weitere Informationen finden Sie unter Reservierungsbetriebsmodus.
Planung und Steuerung der Clusterwartung
Sie steuern die Wartung von A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Maschinen (8 GPUs) mithilfe der topologiebewussten Planung in einem Ressourcenblock. Mit dieser Funktion können Sie Upgrades synchronisieren, damit Ihre Arbeitslasten besser auf Hostereignisse reagieren und Unterbrechungen minimiert werden. Dieser Ansatz trägt dazu bei, den Goodput Ihrer Arbeitslast zu verbessern.
Um die vollständige Kontrolle über Wartungsereignisse zu ermöglichen, können Sie die folgenden Funktionen verwenden:
Typ der Wartungsplanung
Wenn Sie Kapazität reservieren, um Compute-Instanzen oder Cluster von A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3-High-Maschinen (8 GPUs) zu erstellen, können Sie festlegen, wie Compute Engine die Infrastruktur verwaltet, auf der Ihre Instanzen ausgeführt werden. Je nach Maschinentyp, den Sie für Ihre Instanzen verwenden möchten, können Sie zwischen synchronisierter Wartung für alle Instanzen (gruppiert) oder unterschiedlichen Wartungszeitplänen (unabhängig) wählen.
Weitere Informationen finden Sie unter Arten der Wartungsplanung.
Host-Events verwalten
Nachdem Sie Instanzen vom Typ A4X Max, A4X, A4, A3 Ultra, A3 Mega und A3 High (8 GPUs) erstellt und Ihren Arbeitslast gestartet haben, können Sie Benachrichtigungen einrichten und erhalten, wenn die Wartung für Ihre Instanzen oder reservierten Blöcke geplant, gestartet oder abgeschlossen ist. Sie können auch die Wartung für eine Instanz oder einen reservierten Block vor dem geplanten Zeitpunkt ansehen und bei Bedarf manuell starten. Mit diesen Optionen können Sie Ausfallzeiten für Ihre Arbeitslasten proaktiv steuern und minimieren.
Hier finden Sie weitere Informationen:
Tools für Clustermonitoring und ‑diagnose
Für die Überwachung und Fehlerbehebung sind in A4X Max-, A4X-, A4-, A3 Ultra-, A3 Mega- und A3 High-Maschinen (8 GPUs) die folgenden Dienste enthalten:
Vorhersage der VM-Integrität: Damit können Sie VMs identifizieren, deren Integrität in den nächsten fünf Stunden wahrscheinlich abnimmt.
Fehlerhafte Hostberichte, mit denen Sie Probleme mit einzelnen Hostcomputern melden können.
Unterstützung für Cloud Monitoring-Messwerte, mit denen Sie die Leistung von Netzwerken und GPUs überwachen können.