Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Open-Source Plattformen für die verteilte Verarbeitung wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den Tools und Dateien, die in den folgenden Abschnitten beschrieben werden, können Sie Ihre Dataproc-Cluster und ‑Jobs untersuchen, Fehler beheben und beobachten.
KI-gestützte Prüfungen mit Gemini Cloud Assist (Vorschau)
Übersicht
Die Vorschaufunktion „Gemini Cloud Assist-Prüfungen“ nutzt die erweiterten Funktionen von Gemini, um Sie beim Erstellen und Ausführen von Dataproc-Clustern und ‑Jobs zu unterstützen. Mit dieser Funktion werden fehlgeschlagene Cluster sowie fehlgeschlagene und langsam ausgeführte Jobs analysiert, um die Ursachen zu ermitteln und Korrekturen zu empfehlen. Es werden dauerhafte Analysen erstellt, die Sie prüfen, speichern und mit dem Google Cloud Support teilen können, um die Zusammenarbeit zu erleichtern und die Problemlösung zu beschleunigen.
Funktionen
Mit dieser Funktion können Sie Prüfungen über die Google Cloud Console erstellen:
- Fügen Sie vor dem Erstellen einer Prüfung eine Beschreibung des Problems in natürlicher Sprache hinzu.
- Analysieren Sie fehlgeschlagene Cluster sowie langsame und fehlgeschlagene Jobs.
- Erhalten Sie Informationen zu den Ursachen von Problemen mit empfohlenen Korrekturen.
- Erstellen Sie Google Cloud Supportanfragen mit dem vollständigen Prüfungskontext.
Hinweis
Aktivieren Sie die Gemini Cloud Assist API in Ihrem Google Cloud Projekt, um die Prüfungsfunktion zu verwenden.
Prüfung erstellen
So erstellen Sie eine Prüfung:
Rufen Sie in der Google Cloud Console die Seite Cloud Assist-Prüfungen auf.
Klicken Sie auf Erstellen.
Problem beschreiben: Geben Sie eine Beschreibung des Cluster- oder Jobproblems an.
Zeitraum auswählen: Geben Sie einen Zeitraum an, in dem das Problem aufgetreten ist (Standardeinstellung: 30 Minuten).
Ressourcen auswählen:
- Klicken Sie auf Ressource hinzufügen.
- Geben Sie im Feld Schnellfilter „dataproc“ ein und wählen Sie dann einen oder mehrere der folgenden Filter aus:
dataproc.Batch,dataproc.Joboderdataproc.Cluster. - Wählen Sie den Batch, Job oder Cluster aus, den Sie prüfen möchten.
- Geben Sie im Feld Schnellfilter „dataproc“ ein und wählen Sie dann einen oder mehrere der folgenden Filter aus:
- Klicken Sie auf Ressource hinzufügen.
Klicken Sie auf Erstellen.
Prüfungsergebnisse interpretieren
Sobald eine Prüfung abgeschlossen ist, wird die Seite Prüfungsdetails geöffnet. Diese Seite enthält die vollständige Gemini-Analyse, die in die folgenden Abschnitte unterteilt ist:
- Problem: Ein minimierter Abschnitt mit automatisch ausgefüllten Details des zu prüfenden Jobs.
- Relevante Beobachtungen: Ein minimierter Abschnitt mit einer Liste der wichtigsten Datenpunkte und Anomalien, die Gemini bei der Analyse von Logs und Messwerten gefunden hat.
- Hypothesen: Dies ist der primäre Abschnitt, der standardmäßig maximiert ist.
Er enthält eine Liste potenzieller Ursachen für das beobachtete Problem. Jede Hypothese
enthält Folgendes:
- Übersicht: Eine Beschreibung der möglichen Ursache, z. B. „Hohe Shuffle-Schreibzeit und potenzielle Aufgabenverzerrung“.
- Empfohlene Korrekturen: Eine Liste mit umsetzbaren Schritten zur Behebung des potenziellen Problems.
Maßnahmen ergreifen
Nachdem Sie die Hypothesen und Empfehlungen geprüft haben, können Sie Folgendes tun:
Wenden Sie eine oder mehrere der vorgeschlagenen Korrekturen auf die Jobkonfiguration oder den Code an, und führen Sie den Job dann noch einmal aus.
Geben Sie Feedback zur Nützlichkeit der Prüfung, indem Sie oben im Bereich auf das Symbol „Mag ich“ oder „Mag ich nicht“ klicken.
Prüfungen prüfen und eskalieren
Die Ergebnisse einer zuvor ausgeführten Prüfung können Sie auf der Seite Cloud Assist-Prüfungen aufrufen, indem Sie auf den Namen der Prüfung klicken. Dadurch wird die Seite Prüfungsdetails geöffnet.
Wenn Sie weitere Unterstützung benötigen, können Sie eine Google Cloud Supportanfrage einreichen. Dadurch erhält der Supportmitarbeiter den vollständigen Kontext der zuvor durchgeführten Prüfung, einschließlich der von Gemini generierten Beobachtungen und Hypothesen. Durch die Weitergabe dieses Kontexts wird die Kommunikation mit dem Supportteam erheblich reduziert und die Falllösung beschleunigt.
So erstellen Sie eine Supportanfrage aus einer Prüfung:
Klicken Sie auf der Seite Prüfungsdetails auf Support anfordern.
Vorschau-Status und Preise
Für Gemini Cloud Assist-Prüfungen fallen während der öffentlichen Vorschau keine Gebühren an. Gebühren werden für die Funktion erhoben, sobald sie allgemein verfügbar ist (GA).
Weitere Informationen zu den Preisen nach der allgemeinen Verfügbarkeit finden Sie unter Gemini Cloud Assist-Preise.
Open-Source-Weboberflächen
Viele Open-Source-Komponenten von Dataproc-Clustern wie Apache Hadoop und Apache Spark bieten Weboberflächen. Über diese Schnittstellen können Sie Cluster Ressourcen und die Jobleistung beobachten. Mit der YARN Resource Manager UI können Sie beispielsweise die Ressourcenzuweisung für YARN-Anwendungen in einem Dataproc-Cluster aufrufen.
Persistent History Server
Open-Source-Weboberflächen, die in einem Cluster ausgeführt werden, sind verfügbar, solange der Cluster ausgeführt wird. Sie werden beendet, wenn Sie den Cluster löschen. Wenn Sie Cluster und Jobdaten nach dem Löschen eines Clusters aufrufen möchten, können Sie einen Persistent History Server (PHS) erstellen.
Beispiel: Es tritt ein Jobfehler oder eine Verlangsamung auf, die Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und rufen dann die Jobverlaufsdaten über Ihren PHS auf und analysieren sie.
Nachdem Sie einen PHS erstellt haben, aktivieren Sie ihn beim Erstellen des Clusters oder beim Einreichen der Batcharbeitslast in einem Dataproc-Cluster oder Google Cloud einer Serverless for Apache Spark-Batcharbeitslast. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs in einem Projekt beobachten, anstatt separate UIs zu verwenden, die in verschiedenen Clustern ausgeführt werden.
Dataproc-Logs
Dataproc erfasst die Logs, die von Apache Hadoop, Spark, Hive, Zookeeper und anderen Open-Source-Systemen generiert werden, die in Ihren Clustern ausgeführt werden, und sendet sie an Logging. Diese Logs werden nach der Quelle der Logs gruppiert. So können Sie die für Sie interessanten Logs auswählen und aufrufen. Beispielsweise werden YARN NodeManager- und Spark Executor-Logs, die in einem Cluster generiert werden, separat gekennzeichnet. Weitere Informationen zu Dataproc-Log-Inhalten und ‑Optionen finden Sie unter Dataproc-Logs.
Cloud Logging
Logging ist ein vollständig verwaltetes System zur Logverwaltung in Echtzeit. Es bietet Speicher für Logs, die von Google Cloud Diensten und Tools aufgenommen werden, um Logs im großen Maßstab zu durchsuchen, zu filtern, und zu analysieren. Dataproc-Cluster generieren mehrere Logs, darunter Dataproc-Dienstagent Logs, Cluster-Startlogs und OSS-Komponentenlogs wie YARN NodeManager-Logs.
Logging ist standardmäßig für Dataproc-Cluster und Serverless for Apache Spark-Batch arbeitslasten aktiviert. Logs werden regelmäßig in Logging exportiert, wo sie auch nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast gespeichert bleiben.
Dataproc-Messwerte
Dataproc-Cluster- und ‑Jobmesswerte,
mit dem Präfix dataproc.googleapis.com/, bestehen aus
Zeitreihendaten, die Einblicke in die Leistung
eines Clusters bieten, z. B. die CPU-Auslastung oder den Jobstatus. Benutzerdefinierte Dataproc
Messwerte,
mit dem Präfix custom.googleapis.com/,
umfassen Messwerte, die von Open-Source-Systemen ausgegeben werden, die im Cluster ausgeführt werden,
z. B. der YARN running applications Messwert. Wenn Sie Einblicke in Dataproc-Messwerte erhalten
können Sie Ihre Cluster effizient konfigurieren. Durch das Einrichten von messwertbasierten Benachrichtigungen können Sie Probleme schnell erkennen und darauf reagieren.
Dataproc-Cluster- und ‑Jobmesswerte werden standardmäßig kostenlos erfasst. Die Erfassung benutzerdefinierter Messwerte wird Kunden in Rechnung gestellt. Sie können die Erfassung benutzerdefinierter Messwerte beim Erstellen eines Clusters aktivieren. Die Erfassung von Serverless for Apache Spark Spark-Messwerten ist standardmäßig für Spark-Batcharbeitslasten aktiviert.
Cloud Monitoring
Monitoring verwendet Clustermetadaten und ‑messwerte, einschließlich HDFS-, YARN-, Job- und Vorgangsmesswerten, um Einblicke in den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und ‑Jobs zu bieten. Mit Monitoring können Sie Messwerte untersuchen, Diagramme hinzufügen, Dashboards erstellen und Benachrichtigungen einrichten.
Metrics Explorer
Im Metrics Explorer
können Sie Dataproc-Messwerte aufrufen.
Dataproc-Cluster-, ‑Job- und Serverless for Apache Spark-Batch
messwerte werden unter den Cloud Dataproc Cluster,
Cloud Dataproc Job, und Cloud Dataproc Batch
Ressourcen aufgeführt. Benutzerdefinierte Dataproc-Messwerte werden unter der VM Instances Ressource,
Custom Kategorie aufgeführt.
Diagramme
Mit dem Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc Messwerte visualisiert werden.
Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen zu sehen, die in Ihren Clustern ausgeführt werden, und fügen dann einen Filter hinzu, um visualisierte Messwerte nach Cluster namen oder Region auszuwählen.
Dashboards
Sie können Dashboards erstellen um Dataproc-Cluster und ‑Jobs anhand von Messwerten aus mehreren Projekten und verschiedenen Google Cloud Produkten zu beobachten. Sie können Dashboards in der Google Cloud Console auf der Seite „ Dashboards-Übersicht“ erstellen, indem Sie ein Diagramm auf der Seite „ Metrics Explorer“ erstellen und speichern.
Benachrichtigungen
Sie können Benachrichtigungen für Dataproc-Messwerte erstellen, um rechtzeitig über Cluster- oder Jobprobleme informiert zu werden.
Nächste Schritte
- Informationen zur Fehlerbehebung bei Dataproc-Fehlermeldungen
- Informationen zum Aufrufen von Diagnosedaten für Dataproc-Cluster.
- Häufig gestellte Fragen zu Dataproc