Dataproc è un servizio completamente gestito a scalabilità elevata per l'esecuzione di piattaforme di elaborazione distribuita open source come Apache Hadoop, Apache Spark, Apache Flink e Trino. Puoi utilizzare gli strumenti e i file descritti nelle sezioni seguenti per esaminare, risolvere i problemi e monitorare i cluster e i job Dataproc.
Indagini basate sull'AI con Gemini Cloud Assist (anteprima)
Panoramica
La funzionalità di anteprima Indagini di Gemini Cloud Assist utilizza le funzionalità avanzate di Gemini per assistere nella creazione e nell'esecuzione di cluster Dataproc e job. Questa funzionalità analizza i cluster non riusciti e i job non riusciti e a esecuzione lenta per identificare le cause principali e consigliare le correzioni. Crea un'analisi persistente che puoi esaminare, salvare e condividere con Google Cloud l'assistenza per facilitare la collaborazione e accelerare la risoluzione dei problemi.
Funzionalità
Utilizza questa funzionalità per creare indagini dalla Google Cloud console:
- Aggiungi una descrizione del contesto in linguaggio naturale a un problema prima di creare un' indagine.
- Analizza i cluster non riusciti e i job lenti e non riusciti.
- Ottieni informazioni sulle cause principali dei problemi con le correzioni consigliate.
- Crea Google Cloud richieste di assistenza con il contesto completo dell'indagine allegato.
Prima di iniziare
Per iniziare a utilizzare la funzionalità Indagine, nel tuo Google Cloud progetto, abilita l'API Gemini Cloud Assist.
Crea un'indagine
Per creare un'indagine:
Nella Google Cloud console, vai alla pagina Indagini Cloud Assist.
Fai clic su Crea.
Descrivi il problema: fornisci una descrizione del problema del cluster o del job.
Seleziona intervallo di tempo: fornisci un intervallo di tempo in cui si è verificato il problema (il valore predefinito è 30 minuti).
Seleziona risorse:
- Fai clic su Aggiungi risorsa.
- Nel campo Filtri rapidi, digita "dataproc",
e seleziona uno o più dei seguenti filtri:
dataproc.Batch,dataproc.Jobodataproc.Cluster. - Seleziona il batch, il job o il cluster elencato da esaminare.
- Nel campo Filtri rapidi, digita "dataproc",
e seleziona uno o più dei seguenti filtri:
- Fai clic su Aggiungi risorsa.
Fai clic su Crea.
Interpreta i risultati dell'indagine
Una volta completata un'indagine, si apre la pagina Dettagli indagine. Questa pagina contiene l'analisi completa di Gemini, organizzata nelle seguenti sezioni:
- Problema: una sezione compressa contenente i dettagli del job in fase di indagine compilati automaticamente.
- Osservazioni pertinenti: una sezione compressa che elenca i punti dati chiave e le anomalie rilevate da Gemini durante l'analisi di log e metriche.
- Ipotesi: questa è la sezione principale, espansa per impostazione predefinita.
Presenta un elenco di potenziali cause principali del problema osservato. Ogni ipotesi
include:
- Panoramica: una descrizione della possibile causa, ad esempio "Tempo di scrittura shuffle elevato e potenziale asimmetria delle attività".
- Correzioni consigliate: un elenco di passaggi attuabili per risolvere il potenziale problema.
Intervieni
Dopo aver esaminato le ipotesi e i suggerimenti:
Applica una o più delle correzioni suggerite alla configurazione o al codice del job, quindi esegui di nuovo il job.
Fornisci un feedback sull'utilità dell'indagine facendo clic sulle icone Mi piace o Non mi piace nella parte superiore del riquadro.
Esamina e inoltra le indagini
I risultati di un'indagine eseguita in precedenza possono essere esaminati facendo clic sul nome dell'indagine nella pagina Indagini Cloud Assist per aprire la pagina Dettagli indagine.
Se hai bisogno di ulteriore assistenza, puoi aprire una richiesta di assistenza Google Cloud . Questa procedura fornisce all'addetto all'assistenza il contesto completo dell'indagine eseguita in precedenza, incluse le osservazioni e le ipotesi generate da Gemini. La condivisione del contesto riduce significativamente la comunicazione avanti e indietro necessaria con il team di assistenza e porta a una risoluzione più rapida della richiesta.
Per creare una richiesta di assistenza da un'indagine:
Nella pagina Dettagli indagine, fai clic su Richiedi assistenza.
Stato dell'anteprima e prezzi
Non è previsto alcun costo per le indagini di Gemini Cloud Assist durante l'anteprima pubblica. Gli addebiti verranno applicati alla funzionalità quando sarà disponibile pubblicamente (GA).
Per ulteriori informazioni sui prezzi dopo la disponibilità generale, consulta Prezzi di Gemini Cloud Assist.
Interfacce web open source
Molti componenti open source dei cluster Dataproc, come Apache Hadoop e Apache Spark, forniscono interfacce web. Queste interfacce possono essere utilizzate per monitorare le risorse del cluster e il rendimento dei job. Ad esempio, puoi utilizzare l'interfaccia utente di YARN Resource Manager per visualizzare l'allocazione delle risorse delle applicazioni YARN su un cluster Dataproc.
Server di cronologia permanente
Le interfacce web open source in esecuzione su un cluster sono disponibili quando il cluster è in esecuzione, ma terminano quando elimini il cluster. Per visualizzare i dati di cluster e job dopo l'eliminazione di un cluster, puoi creare un server di cronologia permanente (PHS).
Esempio: si verifica un errore o un rallentamento del job che vuoi analizzare. Arresti o elimini il cluster del job, quindi visualizzi e analizzi i dati della cronologia dei job utilizzando il PHS.
Dopo aver creato un PHS, lo abiliti su un cluster Dataproc o Google Cloud su un workload batch Serverless per Apache Spark quando crei il cluster o invii il workload batch. Un PHS può accedere ai dati della cronologia dei job eseguiti su più cluster, consentendoti di monitorare i job in un progetto anziché monitorare interfacce utente separate in esecuzione su cluster diversi.
Log di Dataproc
Dataproc raccoglie i log generati da Apache Hadoop, Spark, Hive, Zookeeper e altri sistemi open source in esecuzione sui cluster e li invia a Logging. Questi log sono raggruppati in base all' origine dei log, il che ti consente di selezionare e visualizzare i log di tuo interesse: ad esempio, i log di YARN NodeManager e Spark Executor generati su un cluster sono etichettati separatamente. Per ulteriori informazioni sui contenuti e sulle opzioni dei log di Dataproc, consulta Log di Dataproc.
Cloud Logging
Logging è un sistema di gestione dei log in tempo reale e completamente gestito. Fornisce spazio di archiviazione per i log importati da Google Cloud servizi e strumenti per cercare, filtrare, e analizzare i log su larga scala. I cluster Dataproc generano più log, inclusi i log degli agenti di servizio Dataproc, i log di avvio dei cluster e i log dei componenti OSS, come i log di YARN NodeManager.
Logging è abilitato per impostazione predefinita sui cluster Dataproc e Serverless per Apache Spark batch workload. I log vengono esportati periodicamente in Logging, dove rimangono dopo l'eliminazione del cluster o il completamento del workload.
Metriche di Dataproc
Le metriche di cluster e job Dataproc,
con il prefisso dataproc.googleapis.com/, sono costituite da
dati di serie temporali che forniscono informazioni sul rendimento
di un cluster, ad esempio l'utilizzo della CPU o lo stato del job. Le metriche personalizzate di Dataproc
,
con il prefisso custom.googleapis.com/,
includono le metriche emesse dai sistemi open source in esecuzione sul cluster,
come la metrica running applications di YARN. Ottenere informazioni sulle metriche di Dataproc
può aiutarti a configurare i cluster in modo efficiente. La configurazione di avvisi basati su metriche può aiutarti a
riconoscere e rispondere rapidamente ai problemi.
Le metriche di cluster e job Dataproc vengono raccolte per impostazione predefinita senza costi. La raccolta di metriche personalizzate viene addebitata ai clienti. Puoi abilitare la raccolta di metriche personalizzate quando crei un cluster. La raccolta di metriche Spark di Serverless per Apache Spark è abilitata per impostazione predefinita sui workload batch Spark.
Cloud Monitoring
Monitoring utilizza i metadati e le metriche dei cluster, incluse le metriche HDFS, YARN, job e operazioni, per fornire visibilità sull' integrità, sul rendimento e sulla disponibilità dei cluster e dei job Dataproc. Puoi utilizzare Monitoring per esplorare le metriche, aggiungere grafici, creare dashboard e creare avvisi.
Esplora metriche
Puoi utilizzare Esplora metriche
per visualizzare le metriche di Dataproc.
Le metriche batch di cluster, job e Serverless per Apache Spark di Dataproc
sono elencate nelle risorse Cloud Dataproc Cluster,
Cloud Dataproc Job, e Cloud Dataproc Batch. Le metriche personalizzate di Dataproc sono elencate nella risorsa VM Instances,
Custom categoria.
Grafici
Puoi utilizzare Esplora metriche per creare grafici che visualizzano le metriche di Dataproc.
Esempio: crei un grafico per visualizzare il numero di applicazioni Yarn attive in esecuzione sui cluster, quindi aggiungi un filtro per selezionare le metriche visualizzate in base al nome o alla regione del cluster.
Dashboard
Puoi creare dashboard per monitorare i cluster e i job Dataproc utilizzando le metriche di più progetti e diversi Google Cloud prodotti. Puoi creare dashboard in the Google Cloud console dalla pagina Panoramica delle dashboard facendo clic, creando e salvando un grafico dalla pagina Esplora metriche.
Avvisi
Puoi creare avvisi sulle metriche di Dataproc per ricevere una notifica tempestiva dei problemi relativi a cluster o job.
Passaggi successivi
- Scopri come risolvere i problemi relativi ai messaggi di errore di Dataproc.
- Scopri come visualizzare i dati diagnostici dei cluster Dataproc.
- Consulta le Domande frequenti su Dataproc.