Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Compute Engine-Instanzen und Slurm-Cluster überwachen

In diesem Dokument wird beschrieben, wie Sie Cloud Monitoring-Dashboards verwenden, um A4X Max-, A4X-, A4-, A3 Ultra- und A3 Mega-Instanzen zu überwachen, die Sie mit reservierter Kapazität erstellt haben. Mithilfe dieser Dashboards können Sie Leistungsengpässe in Ihren eigenständigen Compute Engine-Instanzen oder Slurm-Clustern identifizieren und beheben und so Ausfallzeiten in Ihren Arbeitslasten minimieren.

Wenn Sie benutzerdefinierte Dashboards erstellen oder vorgefertigte Monitoring-Dashboards verwenden, können Sie Folgendes überwachen:

Zustand von Compute-Instanzen
GPU-Leistung
Effizienz der Netzwerkübertragung
Netzwerkeffizienz zwischen Blöcken und Unterblöcken
Effizienz von Arbeitslasten für maschinelles Lernen (ML)
Nachzüglererkennung

Informationen zum Überwachen von Clustern mit Cluster Director finden Sie unter Clusterleistung mit vorgefertigten Dashboards überwachen.

Hinweis

Bevor Sie Ihre Arbeitslast überwachen, sollten Sie die folgenden Schritte ausführen, falls Sie dies noch nicht getan haben:

Stellen Sie eine Arbeitslast bereit, die Sie überwachen können. Informationen zu den unterstützten Arbeitslasten finden Sie in diesem Dokument unter Einschränkungen. Informationen zum Bereitstellen einer Arbeitslast finden Sie unter Übersicht über Bereitstellungsoptionen.
Informationen zu den Google Cloud Diensten zum Monitoring von Arbeitslasten:
- Die Messwerte in diesem Dokument werden in Monitoring-Dashboards angezeigt. Weitere Informationen zu Monitoring-Dashboards, Aufbewahrungsfristen für Monitoring und Preisen für Monitoring
- Die Erkennung von Nachzüglern stellt auch Logeinträge in Cloud Logging bereit. Informationen zu Logging-Schnittstellen, Aufbewahrungsdauer für Logs> und Logging-Preise.

Wenn Sie über die Google Cloud Console auf Google Cloud Dienste und APIs zugreifen, müssen Sie die Authentifizierung nicht einrichten.

Beschränkungen

Die Messwerte in diesem Dokument werden nur für Arbeitslasten unterstützt, die auf Compute-Instanzen ausgeführt werden, die alle folgenden Kriterien erfüllen:
- Die Compute-Instanzen müssen entweder als eigenständige Compute Engine-Instanzen oder als Teil eines Slurm-Clusters erstellt werden.
- Die Compute-Instanzen müssen mit reservierter Kapazität erstellt worden sein.
- Für die Compute-Instanzen muss die Maschinenserie A4X Max, A4X, A4, A3 Ultra oder A3 Mega verwendet werden.
  - Die Erkennung von Nachzüglern unterstützt jedoch auch Instanzen virtueller Maschinen (VMs), die die A3 Mega-Maschinenreihe verwenden.
Achtung :Obwohl Messwerte möglicherweise für andere Maschinenserien als A4X Max, A4X, A4, A3 Ultra oder A3 Mega angezeigt werden, sind diese Messwerte möglicherweise falsch.
Bekannte Probleme bei Infrastrukturmesswerten:
- Für einige Compute-Instanzen werden möglicherweise keine GPU Power Consumption-Messwerte angezeigt.
- Bei einigen Compute-Instanzen werden möglicherweise keine GPU Temperature- oder GPU Thermal Margin-Messwerte angezeigt oder stattdessen NaN.
- Messwerte werden in der Google Cloud Console möglicherweise erst bis zu sieben Minuten nach der Erfassung angezeigt.
Wenn Sie Messwerte für ML-Arbeitslasten überwachen möchten, müssen Sie Monitoring für Ihre Arbeitslast einrichten.
Für die Messwerte zur Erkennung von Stragglern gelten die folgenden zusätzlichen Einschränkungen:
- Bei unterstützten Maschinenserien, die nicht A3 Mega sind, werden für die Erkennung von Nachzüglern nur Compute-Instanzen unterstützt, bei denen die CoMMA-Bibliothek (Collective Communication Analyzer) aktiviert ist, um NCCL-Telemetrie in Google Cloud -Dienste zu exportieren. Weitere Informationen finden Sie in der CoMMA-Übersicht.
- Achtung: Bei der Verwendung der Straggler-Erkennung kann es zu falsch positiven oder falsch negativen Ergebnissen kommen, z. B. in den folgenden Fällen:
  - In den Logs zur Erkennung von Nachzüglern wird gemeldet, dass laufende Compute-Instanzen, die die Erkennung von Nachzüglern nicht unterstützen, nicht als verdächtige Nachzügler gelten.
  - Die Erkennung von Stragglern ist für viele ML-Arbeitslasten genau, Ungenauigkeiten sind jedoch wahrscheinlicher bei Arbeitslasten mit komplexen Kommunikationsmustern.
  Daher empfehlen wir, nur dann auf vermutete Nachzügler zu reagieren, wenn andere Messwerte darauf hinweisen, dass bei der Arbeitslast Probleme auftreten. Wenn die Gesamtleistung des Arbeitslast jedoch zufriedenstellend ist, wird keine Maßnahme empfohlen.
- Es dauert in der Regel bis zu 10 Minuten, bis ein Nachzügler erkannt und gemeldet wird.
- Im Gegensatz zu den anderen Messwerten in diesem Dokument können Sie Messwerte zur Erkennung von Straggler-Aufgaben für Ihre Projekte nicht nach Cluster, Block, Unterblock oder Compute-Instanz filtern. Sie können jedoch Abfragen für die Protokolle zur Erkennung von Nachzüglern nach der ID einer oder mehrerer Compute-Instanzen filtern, die als Nachzügler infrage kommen.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Überwachen von Messwerten für AI Hypercomputer-Arbeitslasten benötigen:

So rufen Sie Messwerte in Cloud Monitoring auf: Monitoring-Bearbeiter (roles/monitoring.editor) für das Projekt
So rufen Sie Logs zur Erkennung von Nachzüglern in Cloud Logging auf: Logbetrachter (roles/logging.viewer) für das Projekt

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Überwachen von Messwerten für AI Hypercomputer-Arbeitslasten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um Messwerte für AI Hypercomputer-Arbeitslasten zu beobachten:

So rufen Sie Dashboards auf: monitoring.dashboards.get für das Projekt
Zum Erstellen von Dashboards: monitoring.dashboards.create für das Projekt
So rufen Sie Logeinträge auf: logging.logEntries.list für das Projekt

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Verfügbare Messwerte

Je nach Anwendungsfall sind die folgenden Messwerte zum Überwachen Ihrer Compute-Instanzen und Slurm-Cluster verfügbar:

Informationen zum Überwachen von Integrität, Leistung und Netzwerkleistung der GPUs, die an Ihre Compute-Instanzen angehängt sind, finden Sie unter Infrastrukturmesswerte.
Informationen zum Überwachen der Effizienz der GPUs in Ihren ML-Arbeitslasten finden Sie unter Messwerte für ML-Arbeitslasten.
Informationen zum Überwachen von Compute-Instanzen, die in ML-Arbeitslasten mit langsamer Leistung als Straggler infrage kommen, finden Sie unter Messwerte zur Straggler-Erkennung.

Informationen zum Aufrufen dieser Messwerte finden Sie in diesem Dokument unter Messwerte visualisieren.

Infrastrukturmesswerte

Mit den folgenden Messwerten können Sie den Zustand, die Leistung und die Netzwerkleistung der GPUs überwachen, die an Ihre Compute-Instanzen angehängt sind:

GPU-Messwerte
GPU-Leistungsmesswerte
Messwerte zur GPU-Netzwerkleistung
Messwerte für schwerwiegende GPU-Fehler

Eine Übersicht der verfügbaren Messwerte in Compute Engine finden Sie unter Google Cloud metrics.

GPU-Messwerte

Verwenden Sie die folgenden Messwerte, um den Zustand Ihrer GPUs zu überwachen:

Name	Messwerttyp	Unterstützte Maschinenserien	Beschreibung
Maschinenstatus	`machine/machine_status`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Gibt an, ob der Computer, auf dem die Compute-Instanz ausgeführt wird, fehlerfrei ist oder repariert werden muss.
NVSwitch-Status	`instance/gpu/nvswitch_status`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Ob ein NVLink-Switch auf einer NVIDIA-GPU, die an eine Compute-Instanz angehängt ist, Probleme hat.
VM-Infrastrukturstatus	`instance/gpu/infra_health`	A4X, A4, A3 Ultra oder A3 Mega	Der Status des Clusters, Blocks, Unterblocks und Hosts, auf dem Ihre Compute-Instanzen ausgeführt werden. Wenn dieser Messwert angibt, dass die Infrastruktur einer Compute-Instanz fehlerhaft ist, wird das Problem auch im Messwert beschrieben.
VM-Fehlervorhersagewert	`instance/gpu/failure_prediction_score`	A4X, A4, A3 Ultra oder A3 Mega	Die Wahrscheinlichkeit, dass die Leistung des Hosts, auf dem die Compute-Instanz ausgeführt wird, in den nächsten fünf Stunden nachlässt. Der Wert kann zwischen `0.0` und `1.0` liegen. Je näher der Wert über einen längeren Zeitraum an `1.0` bleibt, desto wahrscheinlicher ist es, dass die Compute-Instanz beeinträchtigt wird. In diesem Fall empfehlen wir, den Job auf eine andere Compute-Instanz zu verschieben und den Host als fehlerhaft zu melden, wenn Probleme mit der Compute-Instanz auftreten.

GPU-Leistungsmesswerte

Verwenden Sie die folgenden Messwerte, um die Leistung Ihrer GPUs zu überwachen:

Name	Messwerttyp	Unterstützte Maschinenserien	Beschreibung
Kumulierte Kontextnutzung	`instance/gpu/accumulated_context_utilization_seconds`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Die Gesamtzeit in Sekunden, in der die GPU mit der Verarbeitung einer Arbeitslast beschäftigt ist.
GPU-Stromverbrauch	`instance/gpu/power_consumption`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Die Leistung in Watt (W) und in Dezimalwerten, die von einzelnen GPUs auf dem Host verbraucht wird. Bei Compute-Instanzen mit mehreren angehängten GPUs gibt der Messwert den Stromverbrauch für jede GPU auf dem Host separat an.
SM-Auslastung	`instance/gpu/sm_utilization`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Ein Wert ungleich null gibt an, dass die Streaming-Multiprozessoren (SMs) auf Ihren GPUs aktiv verwendet werden.
GPU-Temperatur	`instance/gpu/temperature`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Die Temperatur in Grad Celsius (°C) und in Dezimalwerten der einzelnen GPUs auf dem Host. Bei Compute-Instanzen mit mehreren angehängten GPUs wird der Messwert die Temperatur für jede GPU auf dem Host separat angeben.
GPU-Temperaturreserve	`instance/gpu/tlimit`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Der thermische Spielraum in Grad Celsius (°C) und in Dezimalwerten, den einzelne GPUs haben, bevor sie aufgrund hoher Temperaturen verlangsamt werden müssen. Bei Compute-Instanzen mit mehreren angehängten GPUs gibt der Messwert den thermischen Headroom für jede GPU auf dem Host separat an.

Messwerte für die GPU-Netzwerkleistung

Verwenden Sie die folgenden Messwerte, um die Netzwerkleistung Ihrer GPUs zu überwachen:

Name	Messwerttyp	Unterstützte Maschinenserien	Beschreibung
Änderungen bei Link-Carriern	`instance/gpu/link_carrier_changes`	A4X, A4, A3 Ultra oder A3 Mega	Wie oft sich der Netzwerk-Link-Carrier in einer Minute ändert.
Netzwerk-RTT	`instance/gpu/network_rtt`	A4X, A4, A3 Ultra oder A3 Mega	Die Umlaufzeit in Mikrosekunden für die Übertragung von Netzwerkdaten zwischen einer Quelle und einem Ziel.
Netzwerktraffic zwischen Blöcken	`instance/gpu/network/inter_block_tx`	A4X, A4, A3 Ultra oder A3 Mega	Die Anzahl der Byte des Netzwerkverkehrs zwischen Blöcken.
Netzwerktraffic zwischen Unterblöcken	`instance/gpu/network/inter_subblock_tx`	A4X, A4, A3 Ultra oder A3 Mega	Die Anzahl der Byte des Netzwerkverkehrs zwischen Unterblöcken.
Netzwerktraffic innerhalb eines Unterblocks	`instance/gpu/network/intra_subblock_tx`	A4X, A4, A3 Ultra oder A3 Mega	Die Anzahl der Byte des Netzwerkverkehrs in einem einzelnen Unterblock.
NVLink-Geschwindigkeit	`instance/gpu/nvlink_active_speed`	A4X Max, A4X, A4, A3 Ultra oder A3 Mega	Die aktuelle Portgeschwindigkeit des Zugriffslinks in Gbit/s.
Durchsatz – empfangene Bytes	`instance/gpu/throughput_rx_bytes`	A4X, A4, A3 Ultra oder A3 Mega	Die Anzahl der durch Netzwerkverkehr empfangenen Byte.
Durchsatz – TX-Bytes	`instance/gpu/throughput_tx_bytes`	A4X, A4, A3 Ultra oder A3 Mega	Die Anzahl der für den Netzwerkverkehr übertragenen Byte.

Messwerte zu schwerwiegenden GPU-Fehlern

Mit den folgenden Messwerten können Sie die Fehler überwachen, die bei Ihren GPUs auftreten und die dazu führen können, dass Ihre Compute-Instanzen angehalten werden oder sich negativ auf ihre Leistung auswirken:

Name	Messwerttyp	Unterstützte Maschinenserien	Beschreibung
NVLink-Laufzeitfehler	`instance/gpu/nvlink_runtime_error`	A4X Max oder A4X	Gibt an, ob ein NVLink-Laufzeitfehler aufgetreten ist.
Nicht korrigierbare DRAM-ECC-Fehler	`instance/gpu/dram_uncorrectable_ecc_error_count`	A4X Max oder A4X	Die Anzahl der nicht korrigierbaren Fehlerkorrekturcodes (Error-Correcting Codes, ECCs) in einem dynamischen Direktzugriffsspeicher (Dynamic Random Access Memory, DRAM) einer GPU.
Anzahl der nicht korrigierbaren DRAM-Zeilen, die neu zugeordnet wurden	`instance/gpu/dram_uncorrectable_row_remapping_count`	A4X Max oder A4X	Die Anzahl der Zeilenneuzuordnungen aufgrund von nicht korrigierbaren Fehlern in GPU-DRAMs.
Fehlerhafte DRAM-Zeile konnte nicht neu zugeordnet werden	`instance/gpu/dram_row_remapping_failed`	A4X Max oder A4X	Gibt an, ob das Neuzuordnen einer Zeile in GPU-DRAMs aufgrund eines der folgenden Probleme fehlgeschlagen ist: Ein Versuch, eine Speicherbank neu zuzuordnen, ist fehlgeschlagen, da in der Speicherbank bereits acht Zeilen mit nicht korrigierbaren Fehlern neu zugeordnet wurden. Ein Versuch, eine Zeile neu zuzuordnen, ist fehlgeschlagen, weil die Zeile bereits neu zugeordnet wurde. Ein Versuch, die Zuordnung zu ändern, ist fehlgeschlagen, weil insgesamt 512 Zuordnungsänderungen vorgenommen wurden.
Nicht korrigierbare PCIe-Fehler	`instance/gpu/pcie_fatal_error_count`	A4X Max oder A4X	Die Anzahl der nicht korrigierbaren PCIe-Fehler (Peripheral Component Interconnect Express).
Nicht korrigierbare Cache-ECC-Fehler	`instance/gpu/cache_uncorrectable_ecc_error_count`	A4X Max oder A4X	Die Anzahl der nicht korrigierbaren ECCs im Cache.

Messwerte für ML-Arbeitslasten

Verwenden Sie die folgenden Messwerte, um die Produktivität, insbesondere den Goodput, Ihrer ML-Arbeitslasten zu überwachen:

Name	Messwerttyp	Unterstützte Maschinenserien	Beschreibung
Produktive Zeit	`workload/goodput_time`	A4X, A4, A3 Ultra oder A3 Mega	Die Zeit in Sekunden, die die Arbeitslast für Goodput-Aktivitäten aufwendet. Diese Aktivitäten sind wichtige, nützliche Aufgaben, z. B. ein Vorwärts- oder Rückwärtsdurchlauf während des Modelltrainings.
Unproduktive Zeit	`workload/badput_time`	A4X, A4, A3 Ultra oder A3 Mega	Die Zeit in Sekunden, die für Badput-Aktivitäten aufgewendet wird. Diese Aktivitäten sind Overhead-Aufgaben, z. B. das Laden oder Vorverarbeiten von Daten für das Training.

Messwerte zur Erkennung von Nachzüglern

Mithilfe von Messwerten zur Erkennung von Nachzüglern können Sie verdächtige Nachzügler erkennen und eingrenzen. Nachzügler sind einzelne, nicht abstürzende Fehler, die die gesamte Arbeitslast verlangsamen.

Verwenden Sie den folgenden Messwert, um die Erkennung von Straggler-VMs zu überwachen:

Name	Messwerttyp	Unterstützte Maschinenserien	Beschreibung
Vermutete Nachzügler	`instance/gpu/straggler_status`	A4X, A4, A3 Ultra oder A3 Mega	Gibt an, ob eine VM als Nachzügler gilt, der die Leistung der Arbeitslast beeinträchtigt. Wir empfehlen, nur dann auf vermutete Nachzügler zu reagieren, wenn andere Messwerte darauf hinweisen, dass bei der Arbeitslast Probleme auftreten.

Sie können die Messwerte zur Erkennung von Nachzüglern auch in den Logeinträgen für eine A4X-, A4-, A3 Ultra- oder A3 Mega-Instanz ansehen. Sie können beispielsweise die folgenden Abfragen verwenden:

Beschreibung Abfrage

Beschreibung	Abfrage
Logs mit vermuteten Stragglern für bestimmte VMs. Mit dieser Abfrage können Sie prüfen, ob es für eine bestimmte Arbeitslast in Ihrem Projekt verdächtige Nachzügler gibt.	logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="`INSTANCE_ID`" Ersetzen Sie `INSTANCE_ID` durch die ID einer VM. Fügen Sie für jede zusätzliche VM, die Sie angeben möchten, der Abfrage die folgende Bedingung hinzu: OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="`INSTANCE_ID`"
Alle Logs aus der Erkennung von Straggler-Ereignissen für Ihr Projekt. Mit dieser Abfrage können Sie prüfen, ob der Dienst zur Erkennung von Nachzüglern ausgeführt wird, wenn keine vermuteten Nachzügler erkannt werden. Aufgrund der Einschränkungen können Sie die Logs ohne verdächtige Nachzügler nicht nach bestimmten VMs filtern.	`logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic"`

Logs mit vermuteten Stragglern für bestimmte VMs. Mit dieser Abfrage können Sie prüfen, ob es für eine bestimmte Arbeitslast in Ihrem Projekt verdächtige Nachzügler gibt.

    logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic" AND jsonPayload.suspectedStragglersDetection.numNodes > 0 AND jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"

Ersetzen Sie INSTANCE_ID durch die ID einer VM. Fügen Sie für jede zusätzliche VM, die Sie angeben möchten, der Abfrage die folgende Bedingung hinzu:

    OR jsonPayload.suspectedStragglersDetection.nodes.instanceId="INSTANCE_ID"

Alle Logs aus der Erkennung von Straggler-Ereignissen für Ihr Projekt. Mit dieser Abfrage können Sie prüfen, ob der Dienst zur Erkennung von Nachzüglern ausgeführt wird, wenn keine vermuteten Nachzügler erkannt werden. Aufgrund der Einschränkungen können Sie die Logs ohne verdächtige Nachzügler nicht nach bestimmten VMs filtern.


    logName=~ "/logs/compute.googleapis.com%2Fworkload_diagnostic"

Messwerte zur Erkennung von Stragglern sind aus folgenden Gründen besonders hilfreich für umfangreiche ML-Arbeitslasten:

Umfangreiche ML-Arbeitslasten sind sehr anfällig für Straggler. Bei umfangreichen ML-Arbeitslasten wird synchrones und massiv verteiltes Computing verwendet. Sie bestehen aus vielen, stark voneinander abhängigen Komponenten, die gleichzeitig ausgeführt werden. Diese Architektur macht umfangreiche ML-Arbeitslasten sehr anfällig für Single-Point-Fehler wie Straggler.
Nachzügler in umfangreichen ML-Arbeitslasten zu erkennen und zu identifizieren ist sehr schwierig. Es gibt zwei Arten von Single-Point-of-Failure:
- Stoppfehler: Fehler, die dazu führen, dass das gesamte System angehalten wird, z. B. Hostfehler und Wartungsereignisse. Sie sind relativ einfach zu erkennen und zu beheben.
- Langsame Fehler: Fehler, die zu einer erheblichen Leistungsminderung ohne Abstürze führen. Sie sind sehr schwer zu lokalisieren und zu beheben.
Da sie sich langsam verschlechtern, sind sie von Natur aus schwer zu erkennen und zu lokalisieren, insbesondere bei synchronen Arbeitslasten im großen Maßstab.

Messwerte aufrufen

So rufen Sie Messwerte für Ihre Compute-Instanzen und Slurm-Cluster auf: Verwenden Sie Monitoring-Dashboards wie folgt:

So rufen Sie Infrastrukturmesswerte und Messwerte zur Erkennung von verspätet ausgeführten Aufgaben auf:
- Vorkonfigurierte Dashboards bieten einen schnellen Überblick über den Zustand und die Leistung Ihrer Infrastruktur. Sie können auch ein vorhandenes Dashboard anpassen.
- Für spezielle Monitoring-Anforderungen können Sie benutzerdefinierte Dashboards erstellen.
Informationen zum Aufrufen von Messwerten für ML-Arbeitslasten finden Sie in der Dokumentation zum Einrichten des Monitorings für Ihre Arbeitslast.
Logs zur Erkennung von Stragglern ansehen

Wenn bei der Verwendung eines Dashboards Probleme auftreten, lesen Sie den Abschnitt Probleme mit langsamer Leistung beheben.

Vordefinierte Dashboards verwenden

Sie können Monitoring-Dashboards verwenden, die für AI Hypercomputer vorab erstellt wurden, um Messwerte für Ihre Compute-Instanzen und Slurm-Cluster anzusehen. Sie können auch eine Kopie eines vordefinierten Dashboards erstellen und es an Ihre Anforderungen anpassen.

So verwenden Sie ein vorgefertigtes Dashboard für AI Hypercomputer:

Öffnen Sie in der Google Cloud Console die Seite Dashboards :
Zu Dashboards

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Klicken Sie in der Spalte Name auf den Namen eines der folgenden Dashboards, je nachdem, welche Messwerte Sie aufrufen möchten:
- Verwenden Sie das Dashboard Cluster Director Health Monitoring, um den Zustand von Compute-Instanzen, die GPU-Leistung und die Erkennung von Nachzüglern zu überwachen.
  
  Weitere Informationen zur Verwendung dieser Messwerte zum Identifizieren und Analysieren von Problemen finden Sie auch im Playbook-Dashboard GCE Interactive Playbook – Cluster Director Health Monitoring.
- Verwenden Sie das Dashboard Cluster Director Transmission Efficiency (Übertragungseffizienz von Cluster Director), um die Effizienz der Netzwerkübertragung zu beobachten.
- Um die Netzwerkeffizienz zwischen Blöcken und Unterblöcken zu überwachen, verwenden Sie das Dashboard Cluster Director Block Network.
  
  Weitere Informationen zur Verwendung dieser Messwerte zum Identifizieren und Analysieren von Problemen finden Sie auch im Playbook-Dashboard GCE Interactive Playbook – Cluster Director Block Network.
Die Detailseite des ausgewählten Dashboards wird geöffnet. Mit der Zeitraumauswahl in der Symbolleiste können Sie den Zeitraum der Daten ändern.
Optional: Wenn Sie eine Kopie eines Dashboards erstellen und an Ihre Anforderungen anpassen möchten, klicken Sie auf Dashboard kopieren.

Benutzerdefinierte Dashboards erstellen

So erstellen Sie ein benutzerdefiniertes Monitoring-Dashboard:

Wählen Sie die Messwerte aus, die überwacht werden sollen. Falls noch nicht geschehen, lesen Sie den Abschnitt Verfügbare Messwerte in diesem Dokument.
Benutzerdefinierte Dashboards erstellen und verwalten

Logs zur Erkennung von Stragglern ansehen

So rufen Sie Logs zur Erkennung von Nachzüglern mit dem Log-Explorer auf:

Rufen Sie in der Google Cloud Console das und die Seite Log-Explorer auf:
Zum Log-Explorer

Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis mit der Zwischenüberschrift Logging aus.

Standardmäßig werden auf der Seite alle Logs in Ihrem Projekt abgefragt. Klicken Sie auf Abfrage beenden.
Wählen Sie in der Symbolleiste mit der Zeitraumauswahl den Zeitraum aus, den Sie analysieren möchten.
Geben Sie im Bereich Abfrage eine Abfrage für Protokolle zur Erkennung von Straggler-Ereignissen ein.
Klicken Sie auf Abfrage ausführen.

Das folgende Beispiel zeigt einen Logeintrag zur Erkennung von Ausreißern.

  {
    ...
    "jsonPayload": {
      ...
      "@type": "type.googleapis.com/ml.aitelemetry.performancedebugging.output.NetworkStragglersOutput",
      "suspectedStragglersDetection": {
        "numNodes": 4,
        "nodes": [
          {
            "latencyMs": 9,
            "instanceId": "INSTANCE_ID_1"
          },
          {
            "latencyMs": 9,
            "instanceId": "INSTANCE_ID_2"
          },
          {
            "instanceId": "INSTANCE_ID_3",
            "latencyMs": 4
          },
          {
            "instanceId": "INSTANCE_ID_4",
            "latencyMs": 0
          }
        ],
        "message": "Suspected stragglers detected."
      }
    },
    "resource": {
      "type": "project",
      "labels": {
        "project_id": "PROJECT_NUMBER"
      }
    },
    ...
    "severity": "INFO",
    "logName": "projects/PROJECT_ID/logs/compute.googleapis.com%2Fworkload_diagnostic",
    ...
  }

Der Logeintrag enthält die folgenden Felder:

numNodes: Die Anzahl der mutmaßlichen Straggler-Compute-Instanzen, die im Projekt erkannt wurden. Im Beispiel wurden vier mutmaßliche Compute-Instanzen mit verzögerter Ausführung erkannt.
instanceId: Die ID einer Compute-Instanz, die als potenzieller Straggler erkannt wurde.