"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).
Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
Ejecuta trabajos de Spark con DataprocFileOutputCommitter
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
La función DataprocFileOutputCommitter es una versión mejorada de FileOutputCommitter de código abierto. Permite que los trabajos de Apache Spark escriban de forma simultánea en una ubicación de salida.
Limitaciones
La función DataprocFileOutputCommitter admite trabajos de Spark que se ejecutan en clústeres de Managed Service para Apache Spark en Compute Engine creados con las siguientes versiones de imagen:
Establece spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory y spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false
como una propiedad del trabajo cuando envíes un trabajo de Spark
al clúster.
Ejemplo de Google Cloud CLI:
gcloud dataproc jobs submit spark \
--properties=spark.hadoop.mapreduce.outputcommitter.factory.class=org.apache.hadoop.mapreduce.lib.output.DataprocFileOutputCommitterFactory,spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false \
--region=REGION \
other args ...
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2026-06-03 (UTC)"],[],[]]