Monitoring-Dashboard für Dataflow-Projekt

Die webbasierte Monitoring-Oberfläche von Dataflow enthält ein Dashboard, das Ihre Dataflow-Jobs auf Projektebene überwacht. Die Diagramme zeigen Daten für alle Jobs in einem Projekt.

Zum Dashboard

Das Dashboard kann Ihnen bei den folgenden Aufgaben helfen:

  • Erkennen und identifizieren Sie die Quelle von Kontingentfehlern.
  • Erkennen Sie ungewöhnliches horizontales Autoscaling in einem Job.
  • Ermitteln Sie langsame oder hängende Streamingjobs.

Das Dashboard verwendet Cloud Monitoring, um auf Dataflow-Jobmesswerte zuzugreifen. Mit dem Metrics Explorer können Sie die in den Diagrammen angezeigten Informationen anpassen.

Features

Das Dashboard enthält die folgenden Funktionen:

  • Wählen Sie mithilfe von regulären Ausdrücken aus, welche Jobs im Dashboard angezeigt werden.
  • Rufen Sie die Seite mit den Jobdetails über einzelne Diagramme auf.
  • Personalisieren Sie die Dashboard-Widgets und -Diagramme.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Monitoring Viewer (roles/monitoring.viewer) zuzuweisen, damit Sie die Berechtigung zum Aufrufen der Grafikdaten erhalten. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigung monitoring.timeSeries.list, die zum Aufrufen der Grafikdaten erforderlich ist.

Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Auf Dashboard zugreifen

So greifen Sie auf das Dashboard zu:

  1. Melden Sie sich in der Google Cloud Console an.
  2. Wählen Sie Ihr Google Cloud-Projekt aus.
  3. Öffnen Sie das Navigationsmenü.
  4. Klicken Sie in Analytics auf Dataflow.
  5. Klicken Sie im Navigationsmenü auf Monitoring.

    Zum Dashboard

Dashboardmesswerte

Standardmäßig werden die folgenden Zeitreihendiagramme im Dashboard angezeigt. Weitere Informationen zu den angezeigten Messwerten finden Sie unter Jobmesswerte.

Die folgenden Diagramme gelten für Batch- und Streamingjobs:

  • Jobs ausführen: Zeigt die Anzahl der aktiven Jobs an, die im Projekt ausgeführt werden. In diesem Diagramm wird die gesamte Dataflow-Aktivität im Projekt im Zeitverlauf dargestellt.
  • Workers pro Job (Top 25) Zeigt die aktuelle Anzahl der Worker für die 25 Jobs mit dem höchsten Parallelisierungsgrad an. Dieses Diagramm ist nützlich, um die Ressourcenzuweisung zu verstehen und Jobs mit hoher Arbeitslast zu identifizieren. Sie können auch prüfen, ob Jobs ein unerwartetes Skalierungsverhalten aufweisen.
  • Gesamtzahl der vCPUs. Zeigt die Gesamtzahl der virtuellen CPUs (vCPUs) an, die in allen Jobs im Projekt verwendet werden. Die Gesamtzahl der vCPUs wirkt sich auf Compute Engine-Kontingente aus.
  • vCPUs pro Job (Top 25) Zeige die 25 Jobs an, die die meisten vCPU-Ressourcen verbrauchen. In diesem Diagramm werden potenziell teure Jobs hervorgehoben.
  • Gesamtzahl der vCPUs. Zeigt eine projektweite Gesamtzahl der verwendeten vCPUs an. Dieses Diagramm bietet einen allgemeinen Überblick über die Compute Engine-Ressourcen, die von Ihren Jobs genutzt werden.
  • Fehler bei Kontingentüberschreitung Meldet alle Fälle, in denen Dataflow-Kontingente oder Compute Engine-Kontingente erreicht wurden. Mithilfe dieses Diagramms können Sie potenzielle Jobfehler oder Verlangsamungen bei der Skalierung erkennen.

Die folgenden Diagramme gelten für Streamingjobs:

  • Durchschnittliche Systemlatenz: Hier sehen Sie die durchschnittliche Systemlatenz, die die typische Verzögerung widerspiegelt, die Daten durchlaufen, wenn sie die Quellphasen durchlaufen. Dieses Diagramm kann auf potenzielle Engpässe bei der Eingabe hinweisen. Verwenden Sie dieses Diagramm, um Streamingjobs mit ungewöhnlichen Verzögerungen zwischen dem Zeitpunkt, an dem Daten in einer Quelle angezeigt werden, und dem Schreiben in alle Senken zu identifizieren.
  • Systemverzögerung (Top 25) Hier werden die 25 Streamingpipelines mit der höchsten Systemverzögerung angezeigt. Das ist die längste Zeit, die Daten für die Verarbeitung oder das Warten auf die Verarbeitung benötigen. Dieses Diagramm kann auf potenzielle Engpässe bei der Echtzeitverarbeitung hinweisen.
  • Verzögerung des Datenwasserzeichens pro Stufe (Top 25) Zeigt die 25 Streamingjobs mit der größten Wasserzeichenverzögerung an. Die Wasserzeichenverzögerung für eine Phase ist die Differenz zwischen der letzten Ereigniszeit, die von der Phase empfangen wurde, und dem Wasserzeichen. Dieses Diagramm kann potenzielle Engpässe auf Stufenebene aufzeigen. In diesem Diagramm finden Sie Streamingjobs, die möglicherweise langsam oder hängen bleiben. Weitere Informationen finden Sie unter Fehlerbehebung bei langsamen oder hängenden Streamingjobs.
  • SECU-Nutzung (Top 25). Hier werden die 25 Streamingjobs angezeigt, die die meisten Streaming Engine-Recheneinheiten verbrauchen. Mit diesem Diagramm können Sie die Kosten und die Intensität Ihrer Streamingjobs messen, für die die ressourcenbasierte Abrechnung verwendet wird.
  • Nutzerverarbeitungslatenzen (Top 25). Hier werden die 25 Streamingjobs angezeigt, bei denen die Ausführung von nutzerdefiniertem Code in Verarbeitungsphasen am längsten dauert. Mithilfe dieses Diagramms können Sie potenzielle Leistungsengpässe in Ihrer Anwendungslogik ermitteln.
  • Max. Rückstand in Byte (Top 25). Hier werden die 25 Streamingjobs mit dem größten Volumen an unverarbeiteten Daten angezeigt, die in einer beliebigen Phase warten. Dieses Diagramm kann auf eine potenzielle Überlastung der Eingabe oder eine langsame Verarbeitung hinweisen.
  • Schlüssel im Rückstand (Top 25). Zeigt Streamingjobs mit Rückstand nach der größten Anzahl von Schlüsseln im Rückstand in einer Engpassphase an. Weitere Informationen finden Sie unter Engpässe beheben.
  • Mögliche Ursachen für Engpässe (Top 10). Hier werden die 10 wahrscheinlichsten Ursachen für Engpassphasen in Jobs mit Rückstand angezeigt. Weitere Informationen finden Sie unter Engpässe beheben.

Weitere Informationen zum Arbeiten mit Diagrammen finden Sie unter Diagramme untersuchen.

Dashboard personalisieren

Sie können den Inhalt des Dashboards und die in den Diagrammen angezeigten Informationen anpassen. Wenn Sie das Dashboard bearbeiten, wird ein neues benutzerdefiniertes Dashboard erstellt.

Das Dashboard verwendet Cloud Monitoring, um auf Dataflow-Jobmesswerte zuzugreifen. Passen Sie die Diagramme mit den Cloud Monitoring-Tools an.

  1. Öffnen Sie das Dashboard und klicken Sie auf Dashboard anpassen.
  2. Ändern Sie das Dashboard.
  3. Klicken Sie auf Speichern und anschließend auf Benutzerdefiniertes Dashboard anzeigen.

Nachdem Sie ein benutzerdefiniertes Dashboard erstellt haben, wählen Sie im Menü Dashboard die Option Vordefinierte aus, um zum Standard-Dashboard zurückzukehren.

Ein Beispiel für das Hinzufügen eines Diagramms mit benutzerdefinierten Messwerten zum Dashboard finden Sie unter Dataflow-Überwachungsdashboard anpassen.

Fehlerbehebung

Dieser Abschnitt enthält Anleitungen zur Behebung häufiger Probleme.

Keine Daten verfügbar

Wenn Sie Ihr Dashboard öffnen, wird in einem oder mehreren Diagrammen die folgende Meldung angezeigt:

No data is available for the selected time frame.

Diese Meldung wird angezeigt, wenn der in den Diagrammen abgedeckte Zeitraum keine Daten enthält. Ändern Sie den Zeitraum oder erweitern Sie den Zeitraum, um dieses Problem zu beheben.

Wenn Sie den angezeigten Zeitraum ändern möchten, klicken Sie im Diagramm auf Daten auswerten und verwenden Sie dann die Zeitraumauswahl.

Gelöschte Widgets können nicht wiederhergestellt werden

Wenn Sie ein Widget aus dem Dashboard entfernen, erstellen Sie ein benutzerdefiniertes Dashboard. Nachdem Sie ein benutzerdefiniertes Dashboard erstellt haben, wählen Sie im Menü Dashboard die Option Vordefinierte aus, um zum Standard-Dashboard zurückzukehren.

Diagramme können nicht angezeigt werden

Zum Aufrufen der Diagrammdaten benötigen Sie die Berechtigung monitoring.timeSeries.list. Weitere Informationen finden Sie unter Erforderliche Rollen.

Nächste Schritte