"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Monitorare e risolvere i problemi dei workload batch

Questo documento descrive gli strumenti e i file che puoi utilizzare per monitorare e risolvere i problemi dei workload batch di Managed Service for Apache Spark .

Risolvere i problemi dei workload dalla Google Cloud console

Quando un job batch non riesce o ha un rendimento scadente, un primo passo consigliato è aprire la pagina Dettagli batch dalla pagina Batch della Google Cloud console.

Utilizzare la scheda Riepilogo: il centro di risoluzione dei problemi

La scheda Riepilogo, selezionata per impostazione predefinita all'apertura della pagina Dettagli batch, mostra metriche critiche e log filtrati per aiutarti a eseguire una valutazione iniziale rapida dello stato del batch. Dopo questa valutazione iniziale, puoi eseguire un'analisi più approfondita utilizzando strumenti più specializzati disponibili nella pagina Dettagli batch, come l'UI di Spark, Esplora log e Gemini Cloud Assist.

Metriche batch in evidenza

La scheda Riepilogo della pagina Dettagli batch include grafici che mostrano i valori delle metriche importanti dei workload batch. I grafici delle metriche vengono compilati al termine del batch e offrono un'indicazione visiva di potenziali problemi come la contesa delle risorse, la distorsione dei dati o la pressione della memoria.

Dashboard delle metriche dei batch.

Tabella delle metriche

La tabella seguente elenca le metriche dei workload Spark visualizzate nella pagina Dettagli batch della Google Cloud console e descrive in che modo i valori delle metriche possono fornire informazioni sullo stato e sul rendimento dei workload.

Metrica	Che cosa mostra?
Metriche a livello di executor
Rapporto tra il tempo di GC JVM e il runtime	Questa metrica mostra il rapporto tra il tempo di GC (garbage collection) JVM e il runtime per executor. Rapporti elevati possono indicare perdite di memoria all'interno delle attività in esecuzione su executor specifici o strutture di dati inefficienti, che possono portare a un'elevata rotazione degli oggetti.
Byte con overflow su disco	Questa metrica mostra il numero totale di byte con overflow su disco tra i diversi executor. Se un executor mostra un numero elevato di byte con overflow su disco, ciò può indicare una distorsione dei dati. Se la metrica aumenta nel tempo, ciò può indicare che sono presenti fasi con pressione della memoria o perdite di memoria.
Byte letti e scritti	Questa metrica mostra i byte scritti rispetto ai byte letti per executor. Grandi discrepanze nei byte letti o scritti possono indicare scenari in cui i join replicati portano all'amplificazione dei dati su executor specifici.
Record letti e scritti	Questa metrica mostra i record letti e scritti per executor. Un numero elevato di record letti con un numero ridotto di record scritti può indicare un collo di bottiglia nella logica di elaborazione su executor specifici, con conseguente lettura dei record durante l'attesa. Gli executor che rimangono costantemente indietro nelle letture e nelle scritture possono indicare una contesa delle risorse su questi nodi o inefficienze del codice specifico dell'executor.
Rapporto tra il tempo di scrittura shuffling e il tempo di esecuzione	La metrica mostra la quantità di tempo che l'executor ha trascorso nel runtime di shuffling rispetto al runtime complessivo. Se questo valore è elevato per alcuni executor, può indicare una distorsione dei dati o una serializzazione dei dati inefficiente. Puoi identificare le fasi con tempi di scrittura shuffling lunghi nell'UI di Spark. Cerca le attività anomale all'interno di queste fasi che richiedono più tempo della media per essere completate. Verifica se gli executor con tempi di scrittura shuffling elevati mostrano anche un'attività di I/O del disco elevata. Potrebbero essere utili una serializzazione più efficiente e passaggi di partizionamento aggiuntivi. Scritture di record molto grandi rispetto alle letture di record possono indicare una duplicazione involontaria dei dati dovuta a join inefficienti o trasformazioni errate.
Metriche a livello di applicazione
Avanzamento delle fasi	Questa metrica mostra il numero di fasi in stato di errore, in attesa e in esecuzione. Un numero elevato di fasi in stato di errore o in attesa può indicare una distorsione dei dati. Controlla le partizioni dei dati ed esegui il debug del motivo dell'errore della fase utilizzando la scheda Fasi nell'UI di Spark.
Executor batch Spark	Questa metrica mostra il numero di executor che potrebbero essere necessari rispetto al numero di executor in esecuzione. Una grande differenza tra gli executor richiesti e quelli in esecuzione può indicare problemi di scalabilità automatica.
Metriche a livello di VM
Memoria utilizzata	Questa metrica mostra la percentuale di memoria VM in uso. Se la percentuale del master è elevata, può indicare che il driver è sotto pressione della memoria. Per gli altri nodi VM, una percentuale elevata può indicare che gli executor stanno esaurendo la memoria, il che può portare a un elevato overflow su disco e a un runtime dei workload più lento. Utilizza l'UI di Spark per analizzare gli executor e verificare se il tempo di GC è elevato e se si verificano molti errori delle attività. Esegui anche il debug del codice Spark per la memorizzazione nella cache di set di dati di grandi dimensioni e la trasmissione non necessaria di variabili.

Log job

La pagina Dettagli batch include una sezione Log job che elenca gli avvisi e gli errori filtrati dai log dei job (workload batch). Questa funzionalità consente di identificare rapidamente i problemi critici senza dover analizzare manualmente file di log estesi. Puoi selezionare una gravità del log (ad esempio, Error) dal menu a discesa e aggiungere un filtro di testo per restringere i risultati. Per eseguire un'analisi più approfondita, fai clic sull'icona Visualizza in Esplora log per aprire i log batch selezionati in Esplora log.

Esempio: Esplora log si apre dopo aver scelto Errors dal selettore Gravità nella pagina Dettagli batch della Google Cloud console.

Esplora log batch.

UI Spark

L'UI di Spark raccoglie i dettagli di esecuzione di Apache Spark dai workload batch di Managed Service for Apache Spark. Non è previsto alcun costo per la funzionalità UI di Spark, che è abilitata per impostazione predefinita.

I dati raccolti dalla funzionalità UI di Spark vengono conservati per 90 giorni. Puoi utilizzare questa interfaccia web per monitorare ed eseguire il debug dei workload Spark senza dover creare un server di cronologia permanente.

Ruoli e autorizzazioni Identity and Access Management obbligatori

Per utilizzare la funzionalità UI di Spark con i workload batch sono necessarie le seguenti autorizzazioni.

Autorizzazione di raccolta dei dati: dataproc.batches.sparkApplicationWrite. Questa autorizzazione deve essere concessa al account di servizio che esegue i workload batch. Questa autorizzazione è inclusa nel Managed Service for Apache Spark Worker ruolo, che viene concesso automaticamente al account di servizio predefinito di Compute Engine utilizzato per impostazione predefinita da Managed Service for Apache Spark (vedi Service account di Managed Service for Apache Spark). Tuttavia, se specifichi un service account personalizzato per il workload batch, devi aggiungere l'autorizzazione dataproc.batches.sparkApplicationWrite a questo account di servizio (in genere, concedendo al account di servizio il ruolo Worker di Managed Service for Apache Spark).
Autorizzazione di accesso all'UI di Spark: dataproc.batches.sparkApplicationRead. Questa autorizzazione deve essere concessa a un utente per accedere all'UI di Spark nella Google Cloud console. Questa autorizzazione è inclusa nei Dataproc Viewer, Dataproc Editor e Dataproc Administrator ruoli. Per aprire l'UI di Spark nella Google Cloud console, devi disporre di uno di questi ruoli o di un ruolo personalizzato che includa questa autorizzazione.

Aprire l'UI di Spark

La pagina dell'UI di Spark è disponibile nei Google Cloud workload batch della console.

Vai alla pagina Sessioni interattive di Managed Service for Apache Spark.

Vai a Batch di Managed Service for Apache Spark
Fai clic su un ID batch per aprire la pagina Dettagli batch.
Fai clic su Visualizza UI Spark nel menu in alto.

Il pulsante Visualizza UI Spark è disattivato nei seguenti casi:

Se non viene concessa un'autorizzazione obbligatoria
Se deselezioni la casella di controllo Abilita UI Spark nella pagina Dettagli batch
Se imposti la proprietà spark.dataproc.appContext.enabled su false quando invii un workload batch

Log di Managed Service for Apache Spark

La registrazione è abilitata per impostazione predefinita in Managed Service for Apache Spark e i log dei workload vengono conservati al termine di un workload. Managed Service for Apache Spark raccoglie i log dei workload in Cloud Logging. Puoi accedere ai log di Managed Service for Apache Spark nella risorsa Cloud Dataproc Batch in Esplora log.

Eseguire query sui log di Managed Service for Apache Spark

Esplora log nella Google Cloud console fornisce un riquadro di query per aiutarti a creare una query per esaminare i log dei workload batch. Ecco i passaggi che puoi seguire per creare una query per esaminare i log dei workload batch:

Vai a Esplora log
Il progetto attuale è selezionato. Puoi fare clic su Perfeziona progetto ambito per selezionare un altro progetto.
Definisci una query dei log batch.
- Utilizza i menu dei filtri per filtrare un workload batch.
  1. In Tutte le risorse, seleziona la risorsa Batch di Managed Service for Apache Spark Cloud.
    1. Nel riquadro Seleziona risorsa, seleziona la LOCALITÀ del batch, quindi l' ID BATCH. Questi parametri batch sono elencati nella pagina Batchdi Managed Service for Apache Spark nella Google Cloud console.
    2. Fai clic su Applica.
    3. In Seleziona nomi log , inserisci dataproc.googleapis.com nella casella Cerca nomi log per limitare i tipi di log da interrogare. Seleziona uno o più nomi di file di log elencati.
- Utilizza l'editor di query per filtrare i log specifici della VM.
  1. Specifica il tipo di risorsa e il nome della risorsa VM come mostrato nell'esempio seguente:
```
resource.type="cloud_dataproc_batch"
labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCH_UUID-VM_SUFFIX"
```
    Note:
    - VM_NAME_PREFIX: utilizza gdpic-rm per i workload batch eseguiti su Managed Service for Apache Spark 3.0 e versioni del runtime successive; utilizza gdpic-srvls-batch per i workload batch eseguiti su versioni del runtime precedenti.
    - BATCH_UUID: l'UUID batch è elencato nella pagina Dettagli batch della Google Cloud console, che si apre quando fai clic sull' ID batch nella pagina Batch.
    I log batch elencano anche l'UUID batch nel nome della risorsa VM. Ecco un esempio da un driver.log batch:
Fai clic su Esegui query.

Tipi di log di Managed Service for Apache Spark e query di esempio

L'elenco seguente descrive i diversi tipi di log di Managed Service for Apache Spark e fornisce query di esempio di Esplora log per ogni tipo di log.

dataproc.googleapis.com/output: questo file di log contiene l'output del workload batch. Managed Service for Apache Spark trasmette l'output batch allo spazio dei nomi output, e imposta il nome file su JOB_ID.driver.log.

Query di esempio di Esplora log per i log di output:
```
resource.type="cloud_dataproc_batch"
resource.labels.location="REGION"
resource.labels.batch_id="BATCH_ID"
logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Foutput"
```
dataproc.googleapis.com/spark: lo spazio dei nomi spark aggrega i log di Spark per i daemon e gli executor in esecuzione sulle VM master e worker del cluster Managed Service for Apache Spark. Ogni voce di log include un'etichetta del componente master, worker o executor per identificare la sorgente log, come segue:
- executor: log degli executor del codice utente. In genere, si tratta di log distribuiti.
- master: log del master di Resource Manager autonomo di Spark, simili ai log ResourceManager di Managed Service for Apache Spark YARN.
- worker: log del worker di Resource Manager autonomo di Spark, simili ai log NodeManager di Managed Service for Apache Spark YARN.
Query di esempio di Esplora log per tutti i log nello spazio dei nomi spark:
```
resource.type="cloud_dataproc_batch"
resource.labels.location="REGION"
resource.labels.batch_id="BATCH_ID"
logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
```
Query di esempio di Esplora log per i log dei componenti autonomi di Spark nello spazio dei nomi spark:
```
resource.type="cloud_dataproc_batch"
resource.labels.location="REGION"
resource.labels.batch_id="BATCH_ID"
logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
jsonPayload.component="COMPONENT"
```

dataproc.googleapis.com/startup: lo spazio dei nomi startup include i log di avvio del batch (cluster) . Sono inclusi tutti i log degli script di inizializzazione. I componenti sono identificati dall'etichetta, ad esempio:

startup-script[855]: ... activate-component-spark[3050]: ... enable spark-worker

Query di esempio di Esplora log per i log di avvio dei log su una VM specificata:

resource.type="cloud_dataproc_batch"
resource.labels.location="REGION"
resource.labels.batch_id="BATCH_ID"
logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fstartup"
labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCH_UUID-VM_SUFFIX"

dataproc.googleapis.com/agent: lo spazio dei nomi agent aggrega i log degli agent di Managed Service for Apache Spark. Ogni voce di log include l'etichetta del nome file che identifica la sorgente log.

Query di esempio di Esplora log per i log degli agent generati da una VM worker specificata:
```
resource.type="cloud_dataproc_batch"
resource.labels.location="REGION"
resource.labels.batch_id="BATCH_ID"
logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fagent"
labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCHUUID-wWORKER#"
```
dataproc.googleapis.com/autoscaler: lo spazio dei nomi autoscaler aggrega i log del gestore della scalabilità automatica di Managed Service for Apache Spark.

Query di esempio di Esplora log per i log del gestore della scalabilità automatica generati da una VM worker specificata:
```
resource.type="cloud_dataproc_batch"
resource.labels.location="REGION"
resource.labels.batch_id="BATCH_ID"
logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fautoscaler"
labels."dataproc.googleapis.com/resource_name"="VM_NAME_PREFIX-BATCHUUID-wWORKER#"
```

Per ulteriori informazioni, consulta Log di Managed Service for Apache Spark.

Per informazioni sui log di controllo di Managed Service for Apache Spark, consulta Registrazione di audit di Managed Service for Apache Spark.

Metriche di workload

Managed Service for Apache Spark fornisce metriche batch e Spark che puoi visualizzare da Esplora metriche o dalla pagina Dettagli batch della Google Cloud console.

Metriche batch

Le metriche delle risorse batch di Managed Service for Apache Spark forniscono informazioni sulle risorse batch, ad esempio il numero di executor batch. Le metriche batch hanno il prefisso dataproc.googleapis.com/batch.

Esempio di metrica batch in Metrics Explorer.

Metriche Spark

Per impostazione predefinita, Managed Service for Apache Spark abilita la raccolta delle metriche Spark disponibili, a meno che tu non utilizzi le proprietà di raccolta delle metriche Spark per disabilitare o sostituire la raccolta di una o più metriche Spark.

Le metriche Spark disponibili includono le metriche del driver e dell'executor Spark e le metriche di sistema. Le metriche Spark disponibili hanno il prefisso custom.googleapis.com/.

Esempio di metrica spark in Metrics Explorer.

Configurare gli avvisi relativi alle metriche

Puoi creare avvisi relativi alle metriche di Managed Service for Apache Spark per ricevere una notifica dei problemi dei workload.

Creare grafici

Puoi creare grafici che visualizzano le metriche dei workload utilizzando l'Esplora metriche nellaGoogle Cloud console. Ad esempio, puoi creare un grafico per visualizzare disk:bytes_used, quindi filtrare in base a batch_id.

Cloud Monitoring

Monitoring utilizza i metadati e le metriche dei workload per fornire informazioni sullo stato e sul rendimento dei workload di Managed Service for Apache Spark. Le metriche dei workload includono le metriche Spark, le metriche batch e le metriche delle operazioni.

Puoi utilizzare Cloud Monitoring nella Google Cloud console per esplorare le metriche, aggiungere grafici, creare dashboard e creare avvisi.

Creare dashboard

Puoi creare una dashboard per monitorare i workload utilizzando le metriche di più progetti e prodotti diversi Google Cloud . Per ulteriori informazioni, consulta Crea e gestisci dashboard personalizzate.

Server di cronologia permanente

Managed Service for Apache Spark crea le risorse di calcolo necessarie per eseguire un workload, esegue il workload su queste risorse e poi le elimina al termine del workload. Le metriche e gli eventi dei workload non vengono conservati al termine di un workload. Tuttavia, puoi utilizzare un server di cronologia permanente (PHS) per conservare la cronologia delle applicazioni dei workload (log degli eventi) in Cloud Storage.

Per utilizzare un PHS con un workload batch:

Crea un server di cronologia permanente (PHS) di Managed Service for Apache Spark.

Nota: la pagina dell'UI di Spark nella Google Cloud console raccoglie e mostra i dettagli di esecuzione dei workload Spark che ti aiutano a monitorare ed eseguire il debug dei workload senza richiedere la creazione di un cluster PHS.
Specifica il PHS quando invii un workload.
Utilizza il gateway dei componenti per connetterti al PHS per visualizzare i dettagli dell'applicazione, le fasi dello scheduler, i dettagli a livello di attività e le informazioni sull'ambiente e sull'executor.

Ottimizzazione automatica

Abilitare l'ottimizzazione automatica per Managed Service for Apache Spark: puoi abilitare l'ottimizzazione automatica per Managed Service for Apache Spark quando invii ogni workload batch Spark ricorrente utilizzando la Google Cloud console, gcloud CLI o l'API Managed Service for Apache Spark.

Console

Segui questi passaggi per abilitare l'ottimizzazione automatica su ogni workload batch Spark ricorrente:

Nella Google Cloud console, vai alla pagina Batch di Managed Service for Apache Spark.

Vai a Batch di Managed Service for Apache Spark
Per creare un workload batch, fai clic su Crea.
Nella sezione Contenitore, compila il nome Coorte, che identifica il batch come uno di una serie di workload ricorrenti. L'analisi assistita da Gemini viene applicata al secondo e ai successivi workload inviati con questo nome di coorte. Ad esempio, specifica TPCH-Query1 come nome della coorte per un workload pianificato che esegue una query TPC-H giornaliera.
Compila le altre sezioni della pagina Crea batch in base alle esigenze, quindi fai clic su Invia. Per ulteriori informazioni, consulta Inviare un workload batch.

gcloud

Esegui il seguente comando gcloud dataproc batches submit dell'interfaccia a riga di comando gcloud localmente in una finestra del terminale o in Cloud Shell per abilitare l'ottimizzazione automatica su ogni workload batch Spark ricorrente:

gcloud dataproc batches submit COMMAND \
    --region=REGION \
    --cohort=COHORT \
    other arguments ...

Sostituisci quanto segue:

COMMAND: il tipo di workload Spark, ad esempio Spark, PySpark, Spark-Sql o Spark-R.
REGION: la regione in cui verrà eseguito il workload.
COHORT: il nome della coorte, che identifica il batch come uno di una serie di workload ricorrenti. L'analisi assistita da Gemini viene applicata al secondo e ai successivi workload inviati con questo nome di coorte. Ad esempio, specifica TPCH Query 1 come nome della coorte per un workload pianificato che esegue una query TPC-H giornaliera.

API

Includi il RuntimeConfig.cohort nome in una batches.create per abilitare l'ottimizzazione automatica su ogni workload batch Spark ricorrente. L'ottimizzazione automatica viene applicata al secondo e ai successivi workload inviati con questo nome di coorte. Ad esempio, specifica TPCH-Query1 come nome della coorte per un workload pianificato che esegue una query TPC-H giornaliera.

Esempio:

...
runtimeConfig:
  cohort: TPCH-Query1
...