Tools zur Überwachung und Fehlerbehebung von Dataproc

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Open-Source Plattformen für die verteilte Verarbeitung wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den Tools und Dateien, die in den folgenden Abschnitten beschrieben werden, können Sie Ihre Dataproc-Cluster und ‑Jobs untersuchen, Fehler beheben und beobachten.

KI-gestützte Prüfungen mit Gemini Cloud Assist (Vorschau)

Übersicht

Die Vorschaufunktion „Gemini Cloud Assist-Prüfungen“ nutzt die erweiterten Funktionen von Gemini, um Sie beim Erstellen und Ausführen von Dataproc-Clustern und ‑Jobs zu unterstützen. Mit dieser Funktion werden fehlgeschlagene Cluster sowie fehlgeschlagene und langsam ausgeführte Jobs analysiert, um die Ursachen zu ermitteln und Korrekturen zu empfehlen. Es werden dauerhafte Analysen erstellt, die Sie prüfen, speichern und mit dem Google Cloud Support teilen können, um die Zusammenarbeit zu erleichtern und die Problemlösung zu beschleunigen.

Funktionen

Mit dieser Funktion können Sie Prüfungen über die Google Cloud Console erstellen:

  • Fügen Sie vor dem Erstellen einer Prüfung eine Beschreibung des Problems in natürlicher Sprache hinzu.
  • Analysieren Sie fehlgeschlagene Cluster sowie langsame und fehlgeschlagene Jobs.
  • Erhalten Sie Informationen zu den Ursachen von Problemen mit empfohlenen Korrekturen.
  • Erstellen Sie Google Cloud Supportanfragen mit dem vollständigen Prüfungskontext.

Hinweis

Aktivieren Sie die Gemini Cloud Assist API in Ihrem Google Cloud Projekt, um die Prüfungsfunktion zu verwenden.

Prüfung erstellen

So erstellen Sie eine Prüfung:

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Assist-Prüfungen auf.

    Cloud Assist-Prüfungen

  2. Klicken Sie auf Erstellen.

  3. Problem beschreiben: Geben Sie eine Beschreibung des Cluster- oder Jobproblems an.

  4. Zeitraum auswählen: Geben Sie einen Zeitraum an, in dem das Problem aufgetreten ist (Standardeinstellung: 30 Minuten).

  5. Ressourcen auswählen:

    1. Klicken Sie auf Ressource hinzufügen.
      1. Geben Sie im Feld Schnellfilter „dataproc“ ein und wählen Sie dann einen oder mehrere der folgenden Filter aus: dataproc.Batch, dataproc.Job oder dataproc.Cluster.
      2. Wählen Sie den Batch, Job oder Cluster aus, den Sie prüfen möchten.
  6. Klicken Sie auf Erstellen.

können Sie Prüfungen für jeden Job erstellen.

Prüfungsergebnisse interpretieren

Sobald eine Prüfung abgeschlossen ist, wird die Seite Prüfungsdetails geöffnet. Diese Seite enthält die vollständige Gemini-Analyse, die in die folgenden Abschnitte unterteilt ist:

  • Problem: Ein minimierter Abschnitt mit automatisch ausgefüllten Details des zu prüfenden Jobs.
  • Relevante Beobachtungen: Ein minimierter Abschnitt mit einer Liste der wichtigsten Datenpunkte und Anomalien, die Gemini bei der Analyse von Logs und Messwerten gefunden hat.
  • Hypothesen: Dies ist der primäre Abschnitt, der standardmäßig maximiert ist. Er enthält eine Liste potenzieller Ursachen für das beobachtete Problem. Jede Hypothese enthält Folgendes:
    • Übersicht: Eine Beschreibung der möglichen Ursache, z. B. „Hohe Shuffle-Schreibzeit und potenzielle Aufgabenverzerrung“.
    • Empfohlene Korrekturen: Eine Liste mit umsetzbaren Schritten zur Behebung des potenziellen Problems.

Maßnahmen ergreifen

Nachdem Sie die Hypothesen und Empfehlungen geprüft haben, können Sie Folgendes tun:

  • Wenden Sie eine oder mehrere der vorgeschlagenen Korrekturen auf die Jobkonfiguration oder den Code an, und führen Sie den Job dann noch einmal aus.

  • Geben Sie Feedback zur Nützlichkeit der Prüfung, indem Sie oben im Bereich auf das Symbol „Mag ich“ oder „Mag ich nicht“ klicken.

Prüfungen prüfen und eskalieren

Die Ergebnisse einer zuvor ausgeführten Prüfung können Sie auf der Seite Cloud Assist-Prüfungen aufrufen, indem Sie auf den Namen der Prüfung klicken. Dadurch wird die Seite Prüfungsdetails geöffnet.

Wenn Sie weitere Unterstützung benötigen, können Sie eine Google Cloud Supportanfrage einreichen. Dadurch erhält der Supportmitarbeiter den vollständigen Kontext der zuvor durchgeführten Prüfung, einschließlich der von Gemini generierten Beobachtungen und Hypothesen. Durch die Weitergabe dieses Kontexts wird die Kommunikation mit dem Supportteam erheblich reduziert und die Falllösung beschleunigt.

So erstellen Sie eine Supportanfrage aus einer Prüfung:

Klicken Sie auf der Seite Prüfungsdetails auf Support anfordern.

Vorschau-Status und Preise

Für Gemini Cloud Assist-Prüfungen fallen während der öffentlichen Vorschau keine Gebühren an. Gebühren werden für die Funktion erhoben, sobald sie allgemein verfügbar ist (GA).

Weitere Informationen zu den Preisen nach der allgemeinen Verfügbarkeit finden Sie unter Gemini Cloud Assist-Preise.

Open-Source-Weboberflächen

Viele Open-Source-Komponenten von Dataproc-Clustern wie Apache Hadoop und Apache Spark bieten Weboberflächen. Über diese Schnittstellen können Sie Cluster Ressourcen und die Jobleistung beobachten. Mit der YARN Resource Manager UI können Sie beispielsweise die Ressourcenzuweisung für YARN-Anwendungen in einem Dataproc-Cluster aufrufen.

Persistent History Server

Open-Source-Weboberflächen, die in einem Cluster ausgeführt werden, sind verfügbar, solange der Cluster ausgeführt wird. Sie werden beendet, wenn Sie den Cluster löschen. Wenn Sie Cluster und Jobdaten nach dem Löschen eines Clusters aufrufen möchten, können Sie einen Persistent History Server (PHS) erstellen.

Beispiel: Es tritt ein Jobfehler oder eine Verlangsamung auf, die Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und rufen dann die Jobverlaufsdaten über Ihren PHS auf und analysieren sie.

Nachdem Sie einen PHS erstellt haben, aktivieren Sie ihn beim Erstellen des Clusters oder beim Einreichen der Batcharbeitslast in einem Dataproc-Cluster oder Google Cloud einer Serverless for Apache Spark-Batcharbeitslast. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs in einem Projekt beobachten, anstatt separate UIs zu verwenden, die in verschiedenen Clustern ausgeführt werden.

Dataproc-Logs

Dataproc erfasst die Logs, die von Apache Hadoop, Spark, Hive, Zookeeper und anderen Open-Source-Systemen generiert werden, die in Ihren Clustern ausgeführt werden, und sendet sie an Logging. Diese Logs werden nach der Quelle der Logs gruppiert. So können Sie die für Sie interessanten Logs auswählen und aufrufen. Beispielsweise werden YARN NodeManager- und Spark Executor-Logs, die in einem Cluster generiert werden, separat gekennzeichnet. Weitere Informationen zu Dataproc-Log-Inhalten und ‑Optionen finden Sie unter Dataproc-Logs.

Cloud Logging

Logging ist ein vollständig verwaltetes System zur Logverwaltung in Echtzeit. Es bietet Speicher für Logs, die von Google Cloud Diensten und Tools aufgenommen werden, um Logs im großen Maßstab zu durchsuchen, zu filtern, und zu analysieren. Dataproc-Cluster generieren mehrere Logs, darunter Dataproc-Dienstagent Logs, Cluster-Startlogs und OSS-Komponentenlogs wie YARN NodeManager-Logs.

Logging ist standardmäßig für Dataproc-Cluster und Serverless for Apache Spark-Batch arbeitslasten aktiviert. Logs werden regelmäßig in Logging exportiert, wo sie auch nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast gespeichert bleiben.

Dataproc-Messwerte

Dataproc-Cluster- und ‑Jobmesswerte, mit dem Präfix dataproc.googleapis.com/, bestehen aus Zeitreihendaten, die Einblicke in die Leistung eines Clusters bieten, z. B. die CPU-Auslastung oder den Jobstatus. Benutzerdefinierte Dataproc Messwerte, mit dem Präfix custom.googleapis.com/, umfassen Messwerte, die von Open-Source-Systemen ausgegeben werden, die im Cluster ausgeführt werden, z. B. der YARN running applications Messwert. Wenn Sie Einblicke in Dataproc-Messwerte erhalten können Sie Ihre Cluster effizient konfigurieren. Durch das Einrichten von messwertbasierten Benachrichtigungen können Sie Probleme schnell erkennen und darauf reagieren.

Dataproc-Cluster- und ‑Jobmesswerte werden standardmäßig kostenlos erfasst. Die Erfassung benutzerdefinierter Messwerte wird Kunden in Rechnung gestellt. Sie können die Erfassung benutzerdefinierter Messwerte beim Erstellen eines Clusters aktivieren. Die Erfassung von Serverless for Apache Spark Spark-Messwerten ist standardmäßig für Spark-Batcharbeitslasten aktiviert.

Cloud Monitoring

Monitoring verwendet Clustermetadaten und ‑messwerte, einschließlich HDFS-, YARN-, Job- und Vorgangsmesswerten, um Einblicke in den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und ‑Jobs zu bieten. Mit Monitoring können Sie Messwerte untersuchen, Diagramme hinzufügen, Dashboards erstellen und Benachrichtigungen einrichten.

Metrics Explorer

Im Metrics Explorer können Sie Dataproc-Messwerte aufrufen. Dataproc-Cluster-, ‑Job- und Serverless for Apache Spark-Batch messwerte werden unter den Cloud Dataproc Cluster, Cloud Dataproc Job, und Cloud Dataproc Batch Ressourcen aufgeführt. Benutzerdefinierte Dataproc-Messwerte werden unter der VM Instances Ressource, Custom Kategorie aufgeführt.

Diagramme

Mit dem Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc Messwerte visualisiert werden.

Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen zu sehen, die in Ihren Clustern ausgeführt werden, und fügen dann einen Filter hinzu, um visualisierte Messwerte nach Cluster namen oder Region auszuwählen.

Dashboards

Sie können Dashboards erstellen um Dataproc-Cluster und ‑Jobs anhand von Messwerten aus mehreren Projekten und verschiedenen Google Cloud Produkten zu beobachten. Sie können Dashboards in der Google Cloud Console auf der Seite „ Dashboards-Übersicht“ erstellen, indem Sie ein Diagramm auf der Seite „ Metrics Explorer“ erstellen und speichern.

Benachrichtigungen

Sie können Benachrichtigungen für Dataproc-Messwerte erstellen, um rechtzeitig über Cluster- oder Jobprobleme informiert zu werden.

Nächste Schritte