Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Verbessertes HPC-Clustermanagement mit H4D-Instanzen

Die erweiterten Funktionen für die Verwaltung von HPC-Clustern ermöglichen es Ihnen, umfangreiche, dicht bereitgestellte HPC-Cluster auszuführen. Sie bieten die folgenden Funktionen für die Clusterverwaltung:

Colocation von HPC-Clusterressourcen
Cluster-Topologie-basierte Platzierung
Clusterbetriebsmodus
Planung und Steuerung der Clusterwartung
Tools zur Clusterüberwachung und ‑diagnose

Colocation von HPC-Infrastrukturressourcen

Wenn Sie die H4D-Instanzen mit erweiterten Verwaltungsfunktionen verwenden, können Sie Compute Engine anweisen, Ihre Instanzen so nah wie möglich aneinander bereitzustellen. Diese Maschinen bieten die folgenden Funktionen:

Compute Engine stellt die Maschinen als Ressourcenblöcke bereit.
Verbesserte Skalierbarkeit der Arbeitslast durch Cloud RDMA-fähige 200‑Gbit/s-Netzwerke.

Durch diese Anordnung der Ressourcen werden die Netzwerk-Hops minimiert und die niedrigste Netzwerklatenz erreicht. Weitere Informationen zum Erhalten von Kapazität zum Bereitstellen von dicht zugewiesenen Blöcken von Maschinen finden Sie unter HPC-Cluster mit erweiterten Verwaltungsfunktionen erstellen.

Platzierung unter Berücksichtigung der Clustertopologie

Nachdem Sie VMs oder Cluster von H4D-VMs erstellt haben, können Sie Topologieinformationen auf Knoten- und Clusterebene abrufen. Diese Informationen helfen Ihnen bei Folgendem:

Passen Sie das Design Ihrer Anwendung oder Arbeitslast an, um die Netzwerklatenz weiter zu minimieren.
Netzwerklatenz und Leistungsprobleme für VMs, die häufig miteinander kommunizieren, nachvollziehen und beheben. Diese Probleme können auftreten, wenn sich die VMs unerwartet weit voneinander entfernt befinden.

Weitere Informationen finden Sie unter Topologie einer Compute-Instanz ansehen.

Verwaltete Wartung und Wiederherstellung Ihrer H4D-VMs

Wenn Sie Kapazität zum Erstellen von H4D-VMs oder -Clustern reservieren,verwaltet Google Cloudautomatisch die Wartung und den Wiederherstellungsprozess Ihrer VMs nach Hostfehlern oder fehlerhaften Hostberichten. Dieser Ansatz, der als verwalteter Modus bezeichnet wird, ist ideal, wenn Ihre Arbeitslast eine hohe Stabilität erfordert und ein automatisierter Prozess erforderlich ist, um Ausfallzeiten zu minimieren.

Der verwaltete Modus hat die folgenden Funktionen:

Reservierte Kapazität nur für die Wiederherstellung verwenden: Compute Engine verwendet Ihre reservierte Kapazität nur zum Neustarten von VMs. Wenn in Ihren Reservierungen keine Kapazität verfügbar ist, startet Compute Engine VMs erst neu, wenn Sie mehr Kapazität erhalten.
Automatisierte VM-Neustarts: Google Cloud übernimmt den gesamten Wiederherstellungsprozess für eine VM. Wenn eine Hostwartung erforderlich ist, migriert Compute Engine Ihre VMs automatisch auf andere verfügbare Maschinen in Ihrer Reservierung und startet die VMs neu.
Blockverwaltung und ‑sichtbarkeit: Sie können die Topologie, den Zustand und den Wartungsstatus einzelner Reservierungen und Reservierungsblöcke ansehen. Sie können auch Wartungsbenachrichtigungen für diese Ressourcen erhalten und die Wartung optional vor dem geplanten Wartungszeitpunkt starten.
Mögliche API-Ratenbegrenzungen: Aufrufe der Report Faulty Host API können pro Reservierung ratenbegrenzt werden.

Planung und Steuerung der Clusterwartung

Sie steuern die Wartung von H4D-Instanzen mithilfe der topologiebewussten Planung in einem Ressourcenblock. So können Upgrades synchronisiert werden, damit Ihre Arbeitslasten besser auf Hostereignisse reagieren und Unterbrechungen minimiert werden.

Die folgenden Funktionen können Ihnen helfen, Wartungsereignisse vollständig zu steuern:

Typ der Wartungsplanung
Hostereignisse verwalten

Typ der Wartungsplanung

Wenn Sie Kapazität zum Erstellen von VMs oder Clustern von H4D-VM-Instanzen reservieren, können Sie festlegen, wie Compute Engine die Infrastruktur verwaltet, auf der Ihre VMs ausgeführt werden. Sie können angeben, ob VMs gruppiert und die Wartung synchronisiert geplant werden soll (grouped) oder ob die VMs lose gekoppelt und die Wartung unabhängig geplant werden soll (independent).

Gruppierte Wartungsplanung

Der gruppierte Wartungsplanungstyp sorgt dafür, dass alle VMs, auf denen dieselbe Arbeitslast ausgeführt wird, dieselbe geplante Wartungshäufigkeit haben, unabhängig davon, wann Compute Engine eine VM bereitstellt. Durch diese enge Kopplung der Wartung können Sie die Leistung Ihres Jobs optimieren, da Sie die vollständige Kontrolle über die genutzte und ungenutzte Kapazität haben.

Ein Wartungsplanungstyp für Gruppen ist in den folgenden Fällen nützlich:

In Ihrer Umgebung wird ein Job-Scheduler wie Slurm oder Google Kubernetes Engine verwendet.
Sie möchten hochgradig parallelisierte Computing-Arbeitslasten ausführen.

Unabhängige Wartungsplanung

Beim unabhängigen Wartungsplanungstyp haben VMs unterschiedliche Wartungszeitpläne. Diese Konfiguration ist ideal, wenn Sie Arbeitslasten haben, die effizienter ausgeführt werden, wenn die VMs separate Wartungszeitpläne haben.

Host-Events verwalten

Nachdem Sie H4D-VMs erstellt und Ihre Arbeitslast gestartet haben, können Sie Benachrichtigungen einrichten, die Sie informieren, wenn Wartungsarbeiten für Ihre VMs oder reservierten Blöcke geplant, gestartet oder abgeschlossen werden. Sie können sich auch die Wartung einer VM oder eines reservierten Blocks ansehen und sie bei Bedarf manuell starten, bevor sie geplant ist. Mit diesen Optionen können Sie Ausfallzeiten Ihrer Arbeitslasten proaktiv steuern und minimieren.

Hier finden Sie weitere Informationen:

Tools für Clustermonitoring und ‑diagnose

Für die Überwachung und Fehlerbehebung enthalten H4D-Instanzen einen Dienst zum Melden fehlerhafter Hosts, mit dem Sie Probleme mit einzelnen Hostcomputern melden können.

Nächste Schritte

Sie können einen HPC-Cluster mit erweiterten Clustermanagementfunktionen mit einer der folgenden Methoden erstellen:
Reservierungsnutzung prüfen
H4D-Clustertopologie ansehen
Hostereignisse für VMs verwalten
Hostereignisse für mehrere Reservierungen verwalten
VMs in Ihrem Slurm-Cluster beobachten und überwachen
Fehlerhaften Host melden

Verbessertes HPC-Clustermanagement mit H4D-Instanzen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.