使用 DataprocFileOutputCommitter 執行 Spark 工作

DataprocFileOutputCommitter 功能是開放原始碼 FileOutputCommitter 的強化版本，可讓 Apache Spark 工作同時寫入輸出位置。

限制

DataprocFileOutputCommitter 功能支援在 Dataproc Compute Engine 叢集上執行的 Spark 工作，這些叢集是使用下列映像檔版本建立：

2.1 映像檔版本 2.1.10 以上
2.0 映像檔版本 2.0.62 以上

使用 `DataprocFileOutputCommitter`

如要使用這項功能：

請使用 2.1.10 或 2.0.62 以上的映像檔版本，建立 Dataproc on Compute Engine 叢集。

請將 spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory 和 spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false 設為工作屬性，然後將 Spark 工作提交至叢集。

Google Cloud CLI 範例：

gcloud dataproc jobs submit spark \
    --properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
    --region=REGION \
    other args ...

程式碼範例：

sc.hadoopConfiguration.set("spark.hadoop.mapreduce.outputcommitter.factory.class","org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory")
sc.hadoopConfiguration.set("spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs","false")

Dataproc 檔案輸出修訂者必須設定 spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false，以避免在並行寫入期間建立的成功標記檔案發生衝突。您也可以在 spark-defaults.conf 中設定這項屬性。

使用 DataprocFileOutputCommitter 執行 Spark 工作 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

限制

使用 DataprocFileOutputCommitter

使用 DataprocFileOutputCommitter 執行 Spark 工作

使用 `DataprocFileOutputCommitter`