"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Miglioramenti delle prestazioni di Managed Service for Apache Spark

Questo documento mostra come attivare i miglioramenti delle prestazioni di Managed Service for Apache Spark per consentire ai job Managed Service for Apache Spark di elaborare più dati in meno tempo con costi ridotti.

I miglioramenti delle prestazioni di Managed Service for Apache Spark includono:

Miglioramenti di Spark Optimizer:
- Regole dell'ottimizzatore scritte per piani Spark migliori
- Miglioramento delle prestazioni del connettore BigQuery di Managed Service for Apache Spark se utilizzato nei job Spark
Miglioramenti dell'esecuzione di Spark:
- Miglioramenti del motore di esecuzione Spark

Altri miglioramenti delle prestazioni di Managed Service for Apache Spark:consulta la memorizzazione nella cache del cluster di Managed Service for Apache Spark, che consente di ridurre il tempo necessario per accedere ai dati in Cloud Storage.

Puoi attivare i miglioramenti delle prestazioni di Spark su un cluster o su un job Spark:

I miglioramenti delle prestazioni di Spark abilitati su un cluster vengono applicati, per impostazione predefinita, a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano inviati a Managed Service for Apache Spark o inviati direttamente al cluster.
I miglioramenti delle prestazioni di Spark possono anche essere attivati o disattivati in un job inviato a Managed Service for Apache Spark. Le impostazioni di miglioramento delle prestazioni di Spark applicate a un job sostituiscono eventuali impostazioni in conflitto impostate a livello di cluster solo per il job specificato.

Prezzi

I miglioramenti delle prestazioni di Spark non comportano costi aggiuntivi. Vengono applicati i prezzi standard di Managed Service for Apache Spark.

Considerazioni

I miglioramenti delle prestazioni di Spark modificano le proprietà di Spark, tra cui le seguenti proprietà:

spark.sql.shuffle.partitions: i miglioramenti delle prestazioni di Spark impostano questa proprietà su 1000 per i cluster della versione dell'immagine 2.2. Questa impostazione può rallentare i job di piccole dimensioni.
spark.dataproc.sql.catalog.file.index.stats.enabled: Questa impostazione può causare condizioni di errore di memoria del driver se il conteggio delle partizioni Hive è elevato. La disattivazione di questa proprietà può risolvere la condizione di esaurimento della memoria.

Abilitare i miglioramenti al momento della creazione del cluster

Puoi utilizzare la console Google Cloud , Google Cloud CLI e l'API Dataproc per attivare i miglioramenti delle prestazioni di Managed Service for Apache Spark quando crei un cluster Managed Service for Apache Spark con versioni immagine 2.0.69+, 2.1.17+, 2.2.0+ e versioni immagine successive.

Console

Nella console Google Cloud , apri la pagina Crea cluster.
Fai clic su Configurazione aggiuntiva per espandere la sezione.
Modifica Personalizzazione e altro.
Nella sezione Proprietà cluster, aggiungi le seguenti proprietà:
- Per attivare i miglioramenti dell'ottimizzazione di Spark:
  1. Fai clic su + Aggiungi proprietà.
  2. Seleziona spark nell'elenco Prefisso.
  3. Inserisci spark.dataproc.enhanced.optimizer.enabled nel campo Chiave e true nel campo Valore.
- Per attivare i miglioramenti dell'esecuzione di Spark:
  1. Fai clic su + Aggiungi proprietà.
  2. Seleziona spark nell'elenco Prefisso.
  3. Inserisci spark.dataproc.enhanced.execution.enabled nel campo Chiave e true nel campo Valore.
Completa gli altri campi del cluster, quindi fai clic su Crea cluster.

gcloud

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell.
```
gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --image-version=IMAGE \
    --properties=PROPERTIES
```
Note:
- CLUSTER_NAME: il nome del cluster, che deve essere univoco all'interno di un progetto. Il nome deve iniziare con una lettera minuscola e può contenere fino a 51 lettere minuscole, numeri e trattini. Non può terminare con un trattino. Il nome di un cluster eliminato può essere riutilizzato.
- PROJECT_ID: Il progetto da associare al cluster.
- REGION: la regione Compute Engine in cui si troverà il cluster, ad esempio us-central1.
  - Puoi aggiungere il flag facoltativo --zone=ZONE per specificare una zona all'interno della regione specificata, ad esempio us-central1-a. Se non specifichi una zona, la funzionalità di posizionamento automatico delle zone di Managed Service for Apache Spark seleziona una zona con la regione specificata.
- IMAGE: i miglioramenti delle prestazioni di esecuzione e dell'ottimizzatore di Managed Service for Apache Spark sono disponibili nelle versioni dell'immagine di Managed Service for Apache Spark 2.0.69+ e 2.1.17+ e nelle versioni successive. Se ometti questo flag, Managed Service for Apache Spark selezionerà l'ultima versione secondaria dell'immagine Managed Service for Apache Spark predefinita per il cluster (vedi Versione dell'immagine Managed Service for Apache Spark predefinita).
- PROPERTIES:
  - Per attivare i miglioramenti dell'ottimizzazione di Spark, specifica:
```
spark:spark.dataproc.enhanced.optimizer.enabled=true
```
  - Per attivare i miglioramenti dell'esecuzione di Spark, specifica:
```
spark:spark.dataproc.enhanced.execution.enabled=true
```
  - Per attivare l'ottimizzazione e i miglioramenti dell'esecuzione di Spark, specifica:
```
spark:spark.dataproc.enhanced.optimizer.enabled=true,spark:spark.dataproc.enhanced.execution.enabled=true
```

API

Specifica quanto segue SoftwareConfig.properties come parte di una richiesta clusters.create:
- Per attivare i miglioramenti dell'ottimizzazione di Spark, specifica:
```
"spark:spark.dataproc.enhanced.optimizer.enabled": "true"
```
- Per attivare i miglioramenti dell'esecuzione di Spark, specifica:
```
"spark:spark.dataproc.enhanced.execution.enabled": "true"
```
- Per attivare i miglioramenti dell'ottimizzazione e dell'esecuzione di Spark, specifica:
```
"spark:spark.dataproc.enhanced.optimizer.enabled": "true","spark:spark.dataproc.enhanced.execution.enabled": "true"
```

Attivare o disattivare i miglioramenti al momento dell'invio del job

Puoi utilizzare la console Google Cloud , Google Cloud CLI e l'API Dataproc per attivare o disattivare i miglioramenti delle prestazioni di Spark in un job Spark inviato a Managed Service for Apache Spark.

Console

Nella console Google Cloud , apri la pagina Job.
Nella pagina Job, fai clic su Invia job, quindi scorri fino alla sezione Proprietà del job.
1. Per attivare i miglioramenti dell'ottimizzazione di Spark:
  1. Fai clic su + Aggiungi proprietà. Aggiungi "spark.dataproc.enhanced.optimizer.enabled" nel campo Chiave e "true" nel campo Valore.
2. Per attivare i miglioramenti dell'esecuzione di Spark:
  1. Fai clic su + Aggiungi proprietà.
  2. Aggiungi "spark.dataproc.enhanced.execution.enabled" nel campo Chiave e "true" nel campo Valore.
Completa la compilazione o la conferma degli altri campi di invio del job, quindi fai clic su Invia.

gcloud

Esegui il comando gcloud dataproc jobs submit localmente in una finestra del terminale o in Cloud Shell.
```
gcloud dataproc jobs submit SPARK_JOB_TYPE \
    --cluster=CLUSTER_NAME \
    --region=REGION \
    --properties=PROPERTIES
```
Note:
- SPARK_JOB_TYPE: specifica spark, pyspark, spark-sql o spark-r .
- CLUSTER_NAME: il nome del job in cui verrà eseguito.
- REGION: la regione in cui si trova il cluster.
- PROPERTIES:
  - Per attivare i miglioramenti dell'ottimizzazione di Spark, specifica:
```
spark.dataproc.enhanced.optimizer.enabled=true
```
  - Per attivare i miglioramenti dell'esecuzione di Spark, specifica:
```
spark.dataproc.enhanced.execution.enabled=true
```
  - Per attivare l'ottimizzazione e i miglioramenti dell'esecuzione di Spark, specifica:
```
spark.dataproc.enhanced.optimizer.enabled=true,spark.dataproc.enhanced.execution.enabled=true
```

API

Specifica i seguenti properties per un SparkJob, PySparkJob, SparkSqlJob o SparkRJob nell'ambito di una richiesta jobs.submit:
- Per attivare i miglioramenti dell'ottimizzazione di Spark, specifica:
```
"spark.dataproc.enhanced.optimizer.enabled=true"
```
- Per attivare i miglioramenti dell'esecuzione di Spark, specifica:
```
"spark.dataproc.enhanced.execution.enabled=true"
```
- Per attivare l'ottimizzazione e i miglioramenti dell'esecuzione di Spark, specifica:
```
"spark.dataproc.enhanced.execution.enabled=true,spark.dataproc.enhanced.optimizer.enabled=true"
```

Miglioramenti delle prestazioni di Managed Service for Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prezzi

Considerazioni

Abilitare i miglioramenti al momento della creazione del cluster

Console

gcloud

API

Attivare o disattivare i miglioramenti al momento dell'invio del job

Console

gcloud

API

Miglioramenti delle prestazioni di Managed Service for Apache Spark