Die erweiterten Funktionen für die Verwaltung von HPC-Clustern ermöglichen es Ihnen, umfangreiche, dicht bereitgestellte HPC-Cluster auszuführen. Sie bieten die folgenden Funktionen für die Clusterverwaltung:
- Colocation von HPC-Clusterressourcen
- Cluster-Topologie-basierte Platzierung
- Clusterbetriebsmodus
- Planung und Steuerung der Clusterwartung
- Tools für die Clusterüberwachung und ‑diagnose
Colocation von HPC-Infrastrukturressourcen
Wenn Sie die H4D-Instanzen mit erweiterten Verwaltungsfunktionen verwenden, können Sie Compute Engine anweisen, Ihre Instanzen so nah wie möglich aneinander bereitzustellen. Diese Geräte bieten die folgenden Funktionen:
Compute Engine stellt die Maschinen als Ressourcenblöcke bereit.
Verbesserte Skalierbarkeit von Arbeitslasten durch Cloud RDMA-fähige Netzwerke mit 200 Gbit/s.
Durch diese Anordnung der Ressourcen werden die Netzwerk-Hops minimiert und die niedrigste Netzwerklatenz erreicht. Weitere Informationen zum Erhalten von Kapazität zum Bereitstellen von dicht zugewiesenen Blöcken von Maschinen finden Sie unter HPC-Cluster mit erweiterten Verwaltungsfunktionen erstellen.
Platzierung unter Berücksichtigung der Clustertopologie
Nachdem Sie VMs oder Cluster von H4D-VMs erstellt haben, können Sie Topologieinformationen auf Knoten- und Clusterebene abrufen. Diese Informationen helfen Ihnen bei Folgendem:
Passen Sie das Design Ihrer Anwendung oder Arbeitslast an, um die Netzwerklatenz weiter zu minimieren.
Netzwerklatenz und Leistungsprobleme für VMs, die häufig miteinander kommunizieren, nachvollziehen und beheben. Diese Probleme können auftreten, wenn sich die VMs unerwartet weit voneinander entfernt befinden.
Weitere Informationen finden Sie unter VM-Topologie ansehen.
Verwaltete Wartung und Wiederherstellung Ihrer H4D-VMs
Wenn Sie Kapazität zum Erstellen von H4D-VMs oder -Clustern reservieren,verwaltet Google Cloudautomatisch die Wartung und den Wiederherstellungsprozess Ihrer VMs nach Hostfehlern oder fehlerhaften Hostberichten. Dieser Ansatz, der als verwalteter Modus bezeichnet wird, ist ideal, wenn Ihre Arbeitslast eine hohe Stabilität erfordert und ein automatisierter Prozess erforderlich ist, um Ausfallzeiten zu minimieren.
Der verwaltete Modus hat die folgenden Funktionen:
Reservierte Kapazität nur für die Wiederherstellung verwenden: Compute Engine verwendet Ihre reservierte Kapazität nur zum Neustarten von VMs. Wenn in Ihren Reservierungen keine Kapazität verfügbar ist, startet Compute Engine VMs erst neu, wenn Sie mehr Kapazität erhalten.
Automatisierte VM-Neustarts: Google Cloud übernimmt den gesamten Wiederherstellungsprozess für eine VM. Wenn eine Hostwartung erforderlich ist, migriert Compute Engine Ihre VMs automatisch auf andere verfügbare Maschinen in Ihrer Reservierung und startet die VMs neu.
Blockverwaltung und ‑sichtbarkeit: Sie können die Topologie, den Zustand und den Wartungsstatus einzelner Reservierungen und Reservierungsblöcke ansehen. Sie können auch Wartungsbenachrichtigungen für diese Ressourcen erhalten und die Wartung optional vor dem geplanten Wartungszeitpunkt starten.
Mögliche API-Ratenbegrenzungen: Aufrufe der Report Faulty Host API können pro Reservierung ratenbegrenzt werden.
Planung und Steuerung der Clusterwartung
Sie steuern die Wartung von H4D-Instanzen mithilfe der topologiebewussten Planung in einem Ressourcenblock. So können Sie Upgrades synchronisieren, damit Ihre Arbeitslasten besser auf Hostereignisse reagieren und Unterbrechungen minimiert werden.
Die folgenden Funktionen können Ihnen helfen, Wartungsereignisse vollständig zu steuern:
Typ der Wartungsplanung
Wenn Sie Kapazität zum Erstellen von VMs oder Clustern von H4D-VM-Instanzen reservieren, können Sie festlegen, wie Compute Engine die Infrastruktur verwaltet, auf der Ihre VMs ausgeführt werden. Sie können angeben, ob VMs gruppiert und die Wartung synchronisiert geplant werden soll (grouped) oder ob die VMs lose gekoppelt und die Wartung unabhängig geplant werden soll (independent).
Gruppierte Wartungsplanung
Der gruppierte Wartungsplanungstyp sorgt dafür, dass alle VMs, auf denen dieselbe Arbeitslast ausgeführt wird, unabhängig davon, wann Compute Engine eine VM bereitstellt, dieselbe geplante Wartungshäufigkeit haben. Durch diese enge Kopplung können Sie die Leistung Ihres Jobs optimieren, da Sie die vollständige Kontrolle über die genutzte und ungenutzte Kapazität haben.
Ein Wartungsplanungstyp für Gruppen ist in den folgenden Fällen nützlich:
- In Ihrer Umgebung wird ein Job-Scheduler wie Slurm oder Google Kubernetes Engine verwendet.
- Sie möchten hochgradig parallelisierte Rechenarbeitslasten ausführen.
Unabhängige Wartungsplanung
Beim unabhängigen Wartungsplanungstyp haben VMs unterschiedliche Wartungszeitpläne. Diese Konfiguration ist ideal, wenn Sie Arbeitslasten haben, die effizienter ausgeführt werden, wenn die VMs separate Wartungszeitpläne haben.
Host-Events verwalten
Nachdem Sie H4D-VMs erstellt und Ihre Arbeitslast gestartet haben, können Sie Benachrichtigungen einrichten, die Sie informieren, wenn Wartungsarbeiten für Ihre VMs oder reservierten Blöcke geplant, gestartet oder abgeschlossen werden. Sie können sich auch die Wartung einer VM oder eines reservierten Blocks ansehen und sie bei Bedarf manuell starten, bevor sie geplant ist. Mit diesen Optionen können Sie Ausfallzeiten Ihrer Arbeitslasten proaktiv steuern und minimieren.
Hier finden Sie weitere Informationen:
Tools für Clustermonitoring und ‑diagnose
Für die Überwachung und Fehlerbehebung enthalten H4D-Instanzen einen Dienst zum Melden fehlerhafter Hosts, mit dem Sie Probleme mit einzelnen Hostcomputern melden können.
Nächste Schritte
Sie können einen HPC-Cluster mit erweiterten Clustermanagementfunktionen mit einer der folgenden Methoden erstellen: