"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Scalabilità automatica di Managed Service per Apache Spark

Questo documento fornisce informazioni sulla scalabilità automatica di Managed Service per Apache Spark. Quando invii il tuo workload Spark, Managed Service per Apache Spark può scalare dinamicamente le risorse del workload, ad esempio il numero di esecutori, per eseguirlo in modo efficiente. La scalabilità automatica di Managed Service per Apache Spark è il comportamento predefinito e utilizza l'allocazione dinamica delle risorse di Spark per determinare se, come e quando scalare il workload.

Scalabilità automatica di Managed Service per Apache Spark V2

La versione 2 (V2) della scalabilità automatica di Managed Service per Apache Spark aggiunge funzionalità e miglioramenti alla versione 1 (V1) predefinita per aiutarti a gestire i workload di Managed Service per Apache Spark, migliorare il rendimento del workload e ridurre i costi:

Riduzione asincrona dei nodi: la scalabilità automatica V2 sostituisce la riduzione sincrona della V1 con la riduzione asincrona. Utilizzando la riduzione asincrona, Managed Service per Apache Spark riduce le risorse del workload senza attendere che tutti i nodi completino la migrazione dello shuffle. Ciò significa che i nodi long-tail che fanno fare lo scale down lentamente non bloccheranno lo scale up.
Selezione intelligente dei nodi per la riduzione: la scalabilità automatica V2 sostituisce la selezione casuale dei nodi della V1 con un algoritmo intelligente che identifica i nodi migliori da fare lo scale down per primi. Questo algoritmo considera fattori come le dimensioni dei dati di shuffle e il tempo di inattività del nodo.
Comportamento configurabile di rimozione controllata di Spark e migrazione dello shuffle: la scalabilità automatica V2 consente di utilizzare le proprietà Spark standard per configurare la rimozione controllata di Spark e la migrazione dello shuffle. Questa funzionalità può aiutarti a mantenere la compatibilità della migrazione con le proprietà Spark personalizzate.

Funzionalità di scalabilità automatica di Managed Service per Apache Spark

Funzionalità	Scalabilità automatica di Managed Service per Apache Spark V1	Scalabilità automatica di Managed Service per Apache Spark V2
Riduzione dei nodi	Sincrona	Asincrona
Selezione dei nodi per la riduzione	Casuale	Intelligente
Rimozione controllata di Spark e migrazione dello shuffle	Non configurabile	Configurabile

Proprietà di allocazione dinamica di Spark

La seguente tabella elenca le proprietà di allocazione dinamica di Spark che puoi impostare quando invii un workload batch per controllare la scalabilità automatica (vedi come impostare le proprietà di Spark).

Proprietà	Descrizione	Predefinito
`spark.dataproc.scaling.version`	La versione della scalabilità automatica di Spark di Managed Service per Apache Spark. Specifica la versione `1` o `2` (vedi Scalabilità automatica di Managed Service per Apache Spark V2).	`1`
`spark.dynamicAllocation.enabled`	Indica se utilizzare l'allocazione dinamica delle risorse, che aumenta e diminuisce il numero di esecutori in base al workload. Se imposti il valore su `false`, la scalabilità automatica per il workload viene disattivata. Valore predefinito: `true`.	`true`
`spark.dynamicAllocation.initialExecutors`	Il numero iniziale di esecutori allocati al workload. Dopo l'avvio del workload, la scalabilità automatica potrebbe modificare il numero di esecutori attivi. Il valore minimo è `2`; il valore massimo è `2000`.	`2`
`spark.dynamicAllocation.minExecutors`	Il numero minimo di esecutori a cui ridurre il workload. Il valore minimo è `2`.	`2`
`spark.dynamicAllocation.maxExecutors`	Il numero massimo di esecutori a cui aumentare il workload. Il valore massimo è `2000`.	`1000`
`spark.dynamicAllocation.executorAllocationRatio`	Personalizza lo scale up del workload Spark. Accetta un valore compreso tra `0` e `1`. Un valore di `1.0` fornisce la massima capacità di scale up e aiuta a ottenere il massimo parallelismo. Un valore di `0.5` imposta la capacità di scale up e il parallelismo a metà del valore massimo.	`0.3`
`spark.reducer.fetchMigratedShuffle.enabled`	Se impostata su `true`, consente di recuperare la posizione dell'output dello shuffle dal driver Spark dopo che un recupero non è riuscito da un esecutore rimosso a causa dell'allocazione dinamica di Spark. In questo modo si riducono gli errori `ExecutorDeadException` causati dalla migrazione dei blocchi di shuffle dagli esecutori rimossi agli esecutori attivi e si riducono i tentativi di ripetizione dello stage causati dagli errori `FetchFailedException` (vedi FetchFailedException causato da ExecutorDeadException). Questa proprietà è disponibile nelle versioni del runtime Spark di Managed Service per Apache Spark Spark runtime versions `1.1.12` e successive e `2.0.20` e successive.	`false`

Metriche di allocazione dinamica di Spark

I workload batch Spark generano le seguenti metriche relative all'allocazione dinamica delle risorse di Spark (per ulteriori informazioni sulle metriche di Spark, vedi Monitoraggio e strumentazione).

Metrica	Descrizione
`maximum-needed`	Il numero massimo di esecutori necessari con il carico attuale per soddisfare tutte le attività in esecuzione e in attesa.
`running`	Il numero di esecutori in esecuzione che eseguono le attività.

Problemi e soluzioni di allocazione dinamica di Spark

FetchFailedException causato da ExecutorDeadException

Causa: quando l'allocazione dinamica di Spark riduce un esecutore, il file di shuffle viene migrato agli esecutori attivi. Tuttavia, poiché l'attività di riduzione di Spark su un esecutore recupera l'output dello shuffle dalla posizione impostata dal driver Spark all'avvio dell'attività di riduzione, se un file di shuffle viene migrato, il riduttore può continuare a tentare di recuperare l'output dello shuffle da un esecutore rimosso, causando errori ExecutorDeadException e FetchFailedException.

Soluzione: attiva il recupero della posizione dello shuffle impostando il spark.reducer.fetchMigratedShuffle.enabled su true quando esegui il tuo workload batch di Managed Service per Apache Spark (vedi Impostare le proprietà del workload batch Spark). Quando questa proprietà è attivata, l'attività di riduzione recupera la posizione dell'output dello shuffle dal driver dopo che un recupero da un esecutore rimosso non è riuscito.

Scalabilità automatica di Managed Service per Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.