In diesem Dokument wird beschrieben, wie Sie Compute Engine-Instanzen vom Typ A4X Max, A4X, A4, A3 Ultra oder A3 Mega überwachen, die Sie mit reservierter Kapazität erstellt haben. In diesem Dokument wird beschrieben, wie Sie Cloud Monitoring-Dashboards verwenden, um Leistungsengpässe in Ihren eigenständigen Compute-Instanzen oder Slurm-Clustern zu identifizieren und zu beheben. Mithilfe dieser Dashboards können Sie Ausfallzeiten und Leistungsprobleme bei Ihren Arbeitslasten minimieren.
Wenn Sie integrierte Monitoring-Dashboards erstellen oder verwenden, um eigenständige Compute-Instanzen oder Slurm-Cluster zu überwachen, können Sie Folgendes beobachten:
Zustand von Compute-Instanzen
GPU-Leistung
Effizienz der Netzwerkübertragung
Netzwerkeffizienz zwischen Blöcken und Unterblöcken
Effizienz von Arbeitslasten für maschinelles Lernen (ML)
Erkennung von Nachzüglern
Hinweise
Bevor Sie Ihre Arbeitslast überwachen, sollten Sie die folgenden Schritte ausführen, falls Sie dies noch nicht getan haben:
Stellen Sie eine Arbeitslast bereit, die Sie überwachen können. Informationen dazu, welche Arbeitslasten unterstützt werden, finden Sie in diesem Dokument unter Einschränkungen. Informationen zum Bereitstellen einer Arbeitslast finden Sie unter Übersicht über Bereitstellungsoptionen.
Informationen zu den Google Cloud Diensten zum Überwachen von Arbeitslasten:
Die Messwerte in diesem Dokument werden in Monitoring-Dashboards angezeigt. Weitere Informationen zu Monitoring-Dashboards, Aufbewahrungszeiträumen für Monitoring und Preisen für Monitoring
Die Erkennung von Nachzüglern stellt auch Logeinträge in Cloud Logging bereit. Informationen zu Logging-Schnittstellen, Aufbewahrungsdauer für Logs> und Logging-Preise.
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
Beschränkungen
Die Messwerte in diesem Dokument werden nur für Arbeitslasten unterstützt, die auf Compute-Instanzen ausgeführt werden, die alle folgenden Kriterien erfüllen:
- Die Compute-Instanzen müssen entweder als eigenständige Compute Engine-Instanzen oder als Teil eines Slurm-Clusters erstellt werden.
- Die Compute-Instanzen müssen mit reservierter Kapazität erstellt worden sein.
- Für die Compute-Instanzen muss die Maschinenserie A4X Max, A4X, A4, A3 Ultra oder A3 Mega verwendet werden.
- Die Erkennung von Nachzüglern unterstützt jedoch auch VM-Instanzen, die die Maschinenserie A3 Mega verwenden.
Wenn Sie Messwerte für ML-Arbeitslasten überwachen möchten, müssen Sie Monitoring für Ihre Arbeitslast einrichten.
Für die Messwerte zur Erkennung von Stragglern gelten die folgenden zusätzlichen Einschränkungen:
- Bei unterstützten Maschinenserien, die nicht A3 Mega sind, werden für die Erkennung von Nachzüglern nur Compute-Instanzen unterstützt, bei denen die CoMMA-Bibliothek (Collective Communication Analyzer) aktiviert ist, um NCCL-Telemetrie in Google Cloud Dienste zu exportieren. Weitere Informationen finden Sie in der CoMMA-Übersicht.
- Es dauert in der Regel bis zu 10 Minuten, bis ein Straggler erkannt und gemeldet wird.
- Im Gegensatz zu den anderen Messwerten in diesem Dokument können Sie Messwerte zur Erkennung von Nachzüglern für Ihre Projekte nicht nach Cluster, Block, Unterblock oder Compute-Instanz filtern. Sie können Abfragen für die Erkennung von Stragglern jedoch nach der ID einer oder mehrerer Compute-Instanzen filtern, die als Straggler infrage kommen.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, damit Sie die nötigen Berechtigungen zum Überwachen von Messwerten für AI Hypercomputer-Arbeitslasten haben:
-
So rufen Sie Messwerte in Cloud Monitoring auf:
Monitoring-Bearbeiter (
roles/monitoring.editor) für das Projekt -
So rufen Sie Logs zur Erkennung von Nachzüglern in Logging auf:
Logbetrachter (
roles/logging.viewer) für das Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Überwachen von Messwerten für AI Hypercomputer-Arbeitslasten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Messwerte für AI Hypercomputer-Arbeitslasten zu beobachten:
-
So rufen Sie Dashboards auf:
monitoring.dashboards.getfür das Projekt -
Zum Erstellen von Dashboards:
monitoring.dashboards.createfür das Projekt -
So rufen Sie Logeinträge auf:
logging.logEntries.listfür das Projekt
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Verfügbare Messwerte
Je nach Anwendungsfall sind die folgenden Messwerte für die Überwachung Ihrer Compute-Instanzen und Slurm-Cluster verfügbar:
Informationen zum Überwachen von Integrität, Leistung und Netzwerkleistung der GPUs, die an Ihre Compute-Instanzen angehängt sind, finden Sie unter Infrastrukturmesswerte.
Informationen zum Überwachen der Effizienz der GPUs in Ihren ML-Arbeitslasten finden Sie unter Messwerte für ML-Arbeitslasten.
Informationen zum Überwachen von Compute-Instanzen, die in ML-Arbeitslasten mit langsamer Leistung als Nachzügler infrage kommen, finden Sie unter Messwerte zur Erkennung von Nachzüglern.
Informationen zum Aufrufen dieser Messwerte finden Sie in diesem Dokument unter Messwerte visualisieren.
Infrastrukturmesswerte
Mit den folgenden Messwerten können Sie den Zustand, die Leistung und die Netzwerkleistung der GPUs überwachen, die an Ihre Compute-Instanzen angehängt sind:
Eine Übersicht der verfügbaren Messwerte in Compute Engine finden Sie unter Google Cloud Messwerte.
GPU-Messwerte
Verwenden Sie die folgenden Messwerte, um den Zustand Ihrer GPUs zu überwachen:
| Name | Messwerttyp | Unterstützte Maschinenserien | Beschreibung |
|---|---|---|---|
| Maschinenstatus | machine/machine_status |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Gibt an, ob die von der Compute-Instanz verwendete Maschine fehlerfrei ist oder ob sie fehlerhaft ist und repariert werden muss. |
| NVSwitch-Status | instance/gpu/nvswitch_status |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Gibt an, ob ein NVLink-Switch auf einer NVIDIA-GPU, die an eine Compute-Instanz angehängt ist, Probleme hat. |
| VM-Infrastrukturstatus | instance/gpu/infra_health |
A4X, A4, A3 Ultra oder A3 Mega | Der Status des Clusters, Blocks, Unterblocks und Hosts, auf dem Ihre Compute-Instanzen ausgeführt werden. Wenn dieser Messwert angibt, dass die Infrastruktur einer Compute-Instanz fehlerhaft ist, wird das Problem auch im Messwert beschrieben. |
| VM-Fehlervorhersagewert | instance/gpu/failure_prediction_score |
A4X, A4, A3 Ultra oder A3 Mega |
Die Wahrscheinlichkeit, dass die Leistung des Hosts, auf dem die Compute-Instanz ausgeführt wird, in den nächsten fünf Stunden nachlässt. Der Wert kann zwischen 0.0 und 1.0 liegen. Je näher der Wert über einen längeren Zeitraum an 1.0 bleibt, desto wahrscheinlicher ist es, dass die Compute-Instanz beeinträchtigt wird. In diesem Fall empfehlen wir, den Job auf eine andere Compute-Instanz zu verschieben und den Host als fehlerhaft zu melden, wenn Probleme mit der Compute-Instanz auftreten.
|
GPU-Leistungsmesswerte
Verwenden Sie die folgenden Messwerte, um die Leistung Ihrer GPUs zu überwachen:
| Name | Messwerttyp | Unterstützte Maschinenserien | Beschreibung |
|---|---|---|---|
| Kumulierte Kontextnutzung | instance/gpu/accumulated_context_utilization_seconds |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Die Gesamtzeit in Sekunden, in der die GPU mit der Verarbeitung einer Arbeitslast beschäftigt ist. |
| GPU-Stromverbrauch | instance/gpu/power_consumption |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Die Leistung in Watt (W) und in Dezimalwerten, die von einzelnen GPUs auf dem Host verbraucht wird. Bei Compute-Instanzen mit mehreren angehängten GPUs gibt der Messwert den Stromverbrauch für jede GPU auf dem Host separat an. |
| SM-Auslastung | instance/gpu/sm_utilization |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Ein Wert ungleich null gibt an, dass die Streaming-Multiprozessoren (SMs) auf Ihren GPUs aktiv verwendet werden. |
| GPU-Temperatur | instance/gpu/temperature |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Die Temperatur in Grad Celsius (°C) und in Dezimalwerten der einzelnen GPUs auf dem Host. Bei Compute-Instanzen mit mehreren angehängten GPUs wird die Temperatur für jede GPU auf dem Host separat angegeben. |
| GPU-Temperaturreserve | instance/gpu/tlimit |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Der thermische Spielraum in Grad Celsius (°C) und in Dezimalwerten, den einzelne GPUs haben, bevor sie aufgrund hoher Temperaturen verlangsamt werden müssen. Bei Compute-Instanzen mit mehreren angehängten GPUs gibt der Messwert den thermischen Headroom für jede GPU auf dem Host separat an. |
Messwerte für die GPU-Netzwerkleistung
Verwenden Sie die folgenden Messwerte, um die Netzwerkleistung Ihrer GPUs zu überwachen:
| Name | Messwerttyp | Unterstützte Maschinenserien | Beschreibung |
|---|---|---|---|
| Änderungen bei Link-Carriern | instance/gpu/link_carrier_changes |
A4X, A4, A3 Ultra oder A3 Mega | Wie oft sich der Netzwerklink-Carrier in einer Minute ändert. |
| Netzwerk-RTT | instance/gpu/network_rtt |
A4X, A4, A3 Ultra oder A3 Mega | Die Umlaufzeit in Mikrosekunden für die Übertragung von Netzwerkdaten zwischen einer Quelle und einem Ziel. |
| Netzwerktraffic zwischen Blöcken | instance/gpu/network/inter_block_tx |
A4X, A4, A3 Ultra oder A3 Mega | Die Anzahl der Byte des Netzwerk-Traffics zwischen Blöcken. |
| Netzwerktraffic zwischen Unterblöcken | instance/gpu/network/inter_subblock_tx |
A4X, A4, A3 Ultra oder A3 Mega | Die Anzahl der Byte des Netzwerk-Traffics zwischen Unterblöcken. |
| Netzwerktraffic innerhalb eines Unterblocks | instance/gpu/network/intra_subblock_tx |
A4X, A4, A3 Ultra oder A3 Mega | Die Anzahl der Byte des Netzwerk-Traffics in einem einzelnen Unterblock. |
| NVLink-Geschwindigkeit | instance/gpu/nvlink_active_speed |
A4X Max, A4X, A4, A3 Ultra oder A3 Mega | Die aktuelle Portgeschwindigkeit des Zugriffslinks in Gbit/s. |
| Durchsatz – Empfangene Bytes | instance/gpu/throughput_rx_bytes |
A4X, A4, A3 Ultra oder A3 Mega | Die Anzahl der durch Netzwerkverkehr empfangenen Byte. |
| Durchsatz – TX-Bytes | instance/gpu/throughput_tx_bytes |
A4X, A4, A3 Ultra oder A3 Mega | Die Anzahl der für den Netzwerkverkehr übertragenen Byte. |
Messwerte zu schwerwiegenden GPU-Fehlern
Mit den folgenden Messwerten können Sie die Fehler überwachen, die bei Ihren GPUs auftreten und die dazu führen können, dass Ihre Compute-Instanzen angehalten werden oder sich negativ auf ihre Leistung auswirken:
| Name | Messwerttyp | Unterstützte Maschinenserien | Beschreibung |
|---|---|---|---|
| NVLink-Laufzeitfehler | instance/gpu/nvlink_runtime_error |
A4X Max oder A4X | Gibt an, ob ein NVLink-Laufzeitfehler aufgetreten ist. |
| Nicht korrigierbare DRAM-ECC-Fehler | instance/gpu/dram_uncorrectable_ecc_error_count |
A4X Max oder A4X | Die Anzahl der nicht korrigierbaren Fehlerkorrekturcodes (Error Correcting Codes, ECCs) in einem dynamischen Arbeitsspeicher (Dynamic Random Access Memory, DRAM) einer GPU. |
| Anzahl der nicht korrigierbaren DRAM-Zeilen, die neu zugeordnet wurden | instance/gpu/dram_uncorrectable_row_remapping_count |
A4X Max oder A4X | Die Anzahl der Zeilenneuzuordnungen aufgrund von nicht korrigierbaren Fehlern in GPU-DRAMs. |
| Fehlerhafte DRAM-Zeile konnte nicht neu zugeordnet werden | instance/gpu/dram_row_remapping_failed |
A4X Max oder A4X | Gibt an, ob das Neuzuordnen einer Zeile in GPU-DRAMs aufgrund eines der folgenden Probleme fehlgeschlagen ist:
|
| Nicht korrigierbare PCIe-Fehler | instance/gpu/pcie_fatal_error_count |
A4X Max oder A4X | Die Anzahl der nicht korrigierbaren PCIe-Fehler (Peripheral Component Interconnect Express). |
| Nicht korrigierbare Cache-ECC-Fehler | instance/gpu/cache_uncorrectable_ecc_error_count |
A4X Max oder A4X | Die Anzahl der nicht korrigierbaren ECCs im Cache. |
Messwerte für ML-Arbeitslasten
Um die Produktivität, insbesondere den Goodput, Ihrer ML-Arbeitslasten zu überwachen, verwenden Sie die folgenden Messwerte:
| Name | Messwerttyp | Unterstützte Maschinenserien | Beschreibung |
|---|---|---|---|
| Produktive Zeit | workload/goodput_time |
A4X, A4, A3 Ultra oder A3 Mega | Die Zeit in Sekunden, die die Arbeitslast für Goodput-Aktivitäten aufwendet. Diese Aktivitäten sind wichtige, nützliche Aufgaben, z. B. ein Vorwärts- oder Rückwärtsdurchlauf während des Modelltrainings. |
| Unproduktive Zeit | workload/badput_time |
A4X, A4, A3 Ultra oder A3 Mega | Die Zeit in Sekunden, die für Badput-Aktivitäten aufgewendet wird. Diese Aktivitäten sind Overhead-Aufgaben, z. B. das Laden oder Vorverarbeiten von Daten für das Training. |
Messwerte zur Erkennung von Nachzüglern
Mithilfe von Messwerten zur Erkennung von Nachzüglern können Sie verdächtige Nachzügler erkennen und eingrenzen. Nachzügler sind einzelne, nicht abstürzende Fehler, die die gesamte Arbeitslast verlangsamen.
Verwenden Sie den folgenden Messwert, um die Erkennung von Straggler-VMs zu überwachen:
| Name | Messwerttyp | Unterstützte Maschinenserien | Beschreibung |
|---|---|---|---|
| Vermutete Nachzügler | instance/gpu/straggler_status |
A4X, A4, A3 Ultra oder A3 Mega | Gibt an, ob eine VM als Straggler vermutet wird, der sich auf die Leistung der Arbeitslast auswirkt. Wir empfehlen, nur dann auf mutmaßliche Nachzügler zu reagieren, wenn andere Messwerte darauf hindeuten, dass bei der Arbeitslast Probleme auftreten. |
Sie können die Messwerte zur Erkennung von Straggler-Aufgaben auch in den Logeinträgen für eine A4X-, A4-, A3 Ultra- oder A3 Mega-Instanz ansehen. Sie können beispielsweise die folgenden Abfragen verwenden:
| Beschreibung | Abfrage |
|---|---|
| Logs mit vermuteten Stragglern für bestimmte VMs. Mit dieser Abfrage können Sie prüfen, ob es für eine bestimmte Arbeitslast in Ihrem Projekt verdächtige Nachzügler gibt. |
logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"
Ersetzen Sie
OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"
|
| Alle Logs aus der Erkennung von Straggler-Ereignissen für Ihr Projekt. Mit dieser Abfrage können Sie prüfen, ob der Dienst zur Erkennung von Nachzüglern ausgeführt wird, wenn keine vermuteten Nachzügler erkannt werden. Aufgrund der Einschränkungen können Sie die Logs ohne vermutete Nachzügler nicht nach bestimmten VMs filtern. |
|
Messwerte zur Erkennung von Straggler-Aufgaben sind aus folgenden Gründen besonders hilfreich für umfangreiche ML-Arbeitslasten:
Umfangreiche ML-Arbeitslasten sind sehr anfällig für Nachzügler. Bei umfangreichen ML-Arbeitslasten wird synchrones und massiv verteiltes Computing verwendet. Mit anderen Worten: Sie haben viele, stark voneinander abhängige Komponenten, die gleichzeitig ausgeführt werden. Diese Architektur macht ML-Arbeitslasten im großen Maßstab sehr anfällig für Single-Point-Fehler wie Straggler.
Es ist sehr schwierig, Nachzügler in großen ML-Arbeitslasten zu erkennen und zu identifizieren. Es gibt zwei Arten von Single-Point-of-Failure:
Stoppfehler: Fehler, die dazu führen, dass das gesamte System angehalten wird, z. B. Hostfehler und Wartungsereignisse. Sie sind relativ einfach zu erkennen und zu beheben.
Langsame Fehler: Fehler, die zu einer erheblichen Leistungsminderung ohne Abstürze führen. Sie sind sehr schwer zu lokalisieren und zu beheben.
Da sie sich langsam verschlechtern, sind sie von Natur aus schwer zu erkennen und zu lokalisieren, insbesondere bei synchronen Arbeitslasten in großem Maßstab.
Messwerte aufrufen
So rufen Sie Messwerte für Ihre Compute-Instanzen und Slurm-Cluster auf:
So rufen Sie Infrastrukturmesswerte und Messwerte zur Erkennung von verspäteten Aufgaben auf:
Vorkonfigurierte Dashboards bieten einen schnellen Überblick über den Zustand und die Leistung Ihrer Infrastruktur. Sie können auch ein vorhandenes Dashboard anpassen.
Für spezielle Monitoring-Anforderungen können Sie benutzerdefinierte Dashboards erstellen.
Informationen zum Aufrufen von Messwerten für ML-Arbeitslasten finden Sie in der Dokumentation zum Einrichten des Monitorings für Ihre Arbeitslast.
Wenn bei der Verwendung eines Dashboards Probleme auftreten, lesen Sie den Abschnitt Probleme mit der Leistung beheben.
Vordefinierte Dashboards verwenden
Sie können Monitoring-Dashboards verwenden, die für AI Hypercomputer vorab erstellt wurden, um Messwerte für Ihre Compute-Instanzen und Slurm-Cluster anzusehen. Sie können auch eine Kopie eines vordefinierten Dashboards erstellen und es an Ihre Anforderungen anpassen.
So verwenden Sie ein vorgefertigtes Dashboard für AI Hypercomputer:
-
Öffnen Sie in der Google Cloud Console die Seite Dashboards :
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Klicken Sie in der Spalte Name auf den Namen eines der folgenden Dashboards, je nachdem, welche Messwerte Sie aufrufen möchten:
Verwenden Sie das Dashboard Cluster Director Health Monitoring, um den Zustand von Compute-Instanzen, die GPU-Leistung und die Erkennung von Straggler-Aufgaben zu überwachen.
Weitere Informationen zur Verwendung dieser Messwerte zum Identifizieren und Analysieren von Problemen finden Sie auch im GCE Interactive Playbook – Cluster Director Health Monitoring.
Verwenden Sie das Dashboard Cluster Director Transmission Efficiency (Übertragungseffizienz von Cluster Director), um die Effizienz der Netzwerkübertragung zu überwachen.
Wenn Sie die Netzwerkeffizienz zwischen Blöcken und Unterblöcken überwachen möchten, verwenden Sie das Dashboard Cluster Director Block Network.
Weitere Informationen zur Verwendung dieser Messwerte zum Identifizieren und Analysieren von Problemen finden Sie auch im Playbook-Dashboard GCE Interactive Playbook – Cluster Director Block Network.
Die Detailseite des ausgewählten Dashboards wird geöffnet. Mit der Zeitraumauswahl in der Symbolleiste können Sie den Zeitraum der Daten ändern.
Optional: Wenn Sie eine Kopie eines Dashboards erstellen und an Ihre Anforderungen anpassen möchten, klicken Sie auf Dashboard kopieren.
Benutzerdefinierte Dashboards erstellen
So erstellen Sie ein benutzerdefiniertes Monitoring-Dashboard:
Wählen Sie die Messwerte aus, die überwacht werden sollen. Falls noch nicht geschehen, lesen Sie den Abschnitt Verfügbare Messwerte in diesem Dokument.
Logs zur Erkennung von Nachzüglern ansehen
So rufen Sie Logs zur Erkennung von Nachzüglern mit dem Log-Explorer auf:
-
Rufen Sie in der Google Cloud Console das und die Seite Log-Explorer auf:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis mit der Zwischenüberschrift Logging aus.
Standardmäßig werden auf der Seite alle Logs in Ihrem Projekt abgefragt. Klicken Sie auf Abfrage beenden.
Wählen Sie in der Symbolleiste mit der Zeitraumauswahl den Zeitraum aus, den Sie analysieren möchten.
Geben Sie im Bereich Abfrage eine Abfrage für Protokolle zur Erkennung von Straggler-Ereignissen ein.
Klicken Sie auf Abfrage ausführen.
Das folgende Beispiel zeigt einen Logeintrag zur Erkennung von Ausreißern.
{
...
"jsonPayload": {
...
"@type": "type.googleapis.com/ml.aitelemetry.performancedebugging.output.NetworkStragglersOutput",
"suspectedStragglersDetection": {
"numNodes": 4,
"nodes": [
{
"latencyMs": 9,
"instanceId": "INSTANCE_ID_1"
},
{
"latencyMs": 9,
"instanceId": "INSTANCE_ID_2"
},
{
"instanceId": "INSTANCE_ID_3",
"latencyMs": 4
},
{
"instanceId": "INSTANCE_ID_4",
"latencyMs": 0
}
],
"message": "Suspected stragglers detected."
}
},
"resource": {
"type": "project",
"labels": {
"project_id": "PROJECT_NUMBER"
}
},
...
"severity": "INFO",
"logName": "projects/PROJECT_ID/logs/compute.googleapis.com%2Fworkload_diagnostic",
...
}
Der Logeintrag enthält die folgenden Felder:
numNodes: Die Anzahl der mutmaßlichen Straggler-Compute-Instanzen, die im Projekt erkannt wurden. Im Beispiel wurden vier mutmaßliche Compute-Instanzen mit verzögerter Beendigung erkannt.instanceId: Die ID einer Compute-Instanz, die als potenzieller Straggler erkannt wurde.
Nächste Schritte
- VMs beobachten und überwachen
- Cluster mit dem Cluster Health Scanner testen
- Dashboards für Google Cloud Dienste anpassen
- Fehlerbehebung bei unzureichender Leistung