"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Esegui job Spark con DataprocFileOutputCommitter

La funzionalità DataprocFileOutputCommitter è una versione migliorata di FileOutputCommitter open source. Consente scritture simultanee da parte dei job Apache Spark in una posizione di output.

Limitazioni

La funzionalità DataprocFileOutputCommitter supporta i job Spark eseguiti su cluster Managed Service for Apache Spark Compute Engine creati con le seguenti versioni dell'immagine:

2.1 versioni immagine 2.1.10 e successive
Versioni immagine 2.0.62 e successive

Utilizza `DataprocFileOutputCommitter`

Per utilizzare questa funzionalità, procedi nel seguente modo:

Crea un cluster Managed Service per Apache Spark su Compute Engine utilizzando le versioni delle immagini 2.1.10 o 2.0.62 o successive.
Imposta spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory e spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false come proprietà del job quando invii un job Spark al cluster.
- Esempio di Google Cloud CLI:
```
gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...
```
- Codice di esempio:
```
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")
```
Il committer di output dei file di Managed Service per Apache Spark deve impostare spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false per evitare conflitti tra i file marker di successo creati durante le scritture simultanee. Puoi anche impostare questa proprietà in spark-defaults.conf.

Esegui job Spark con DataprocFileOutputCommitter Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Limitazioni

Utilizza DataprocFileOutputCommitter

Esegui job Spark con DataprocFileOutputCommitter

Utilizza `DataprocFileOutputCommitter`