"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Propiedades del clúster

Apache Hadoop YARN, HDFS, Spark y propiedades relacionadas

Los componentes de código abierto instalados en los clústeres de Managed Service para Apache Spark contienen muchos archivos de configuración. Por ejemplo, Apache Spark y Apache Hadoop tienen varios archivos de configuración XML y de texto sin formato. Puedes usar la marca ‑‑properties del comando gcloud dataproc clusters create para modificar muchos archivos de configuración comunes cuando creas un clúster.

Formato

La marca gcloud dataproc clusters create --properties acepta el siguiente formato de string:

file_prefix1:property1=value1,file_prefix2:property2=value2,...

file_prefix se mapea a un archivo de configuración predefinido, como se muestra en la siguiente tabla, y property se mapea a una propiedad dentro del archivo.
El delimitador predeterminado que se usa para separar varias propiedades del clúster es la coma (,). Sin embargo, si se incluye una coma en un valor de propiedad, debes cambiar el delimitador especificando un signo "^"delimiter^" al comienzo de la lista de propiedades (consulta escape de tema de gcloud para obtener más información).
- Ejemplo con un delimitador “#”:
```
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
```

Práctica recomendada: Para garantizar un comportamiento predecible del clúster, especifica los valores de las propiedades booleanas directamente como true o false en minúsculas.

Ejemplos

Consola deGoogle Cloud

Para cambiar la configuración spark.master en el archivo spark-defaults.conf, haz lo siguiente:

En la consola de Google Cloud , abre la página Crear clúster.
Haz clic en Configuración adicional para expandir esa sección.
Edita Personalización y otros.
En el panel que se abre, en la sección Propiedades del clúster, haz clic en + Agregar propiedades.
Selecciona spark en la lista Prefijo.
En el campo Clave, ingresa spark.master.
En el campo Valor, ingresa el parámetro de configuración.
Haz clic en Guardar.

gcloud CLI

Para cambiar la configuración spark.master en el archivo spark-defaults.conf, agrega la siguiente marca gcloud dataproc clusters create --properties:

--properties 'spark:spark.master=spark://example.com'

Puedes cambiar varias propiedades a la vez, en uno o más archivos de configuración, si usas una coma como separador. Cada propiedad debe especificarse en el formato file_prefix:property=value completo. Por ejemplo, para cambiar la configuración spark.master en el archivo spark-defaults.conf y la configuración dfs.hosts en el archivo hdfs-site.xml, puedes usar la marca siguiente --properties cuando crees un clúster:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API de REST

Para configurar spark.executor.memory en 10g, inserta la siguiente configuración de properties en la sección SoftwareConfig de tus solicitudes clusters.create:

"properties": {
  "spark:spark.executor.memory": "10g"
}

gcloudUna forma sencilla de ver cómo construir el cuerpo JSON de una solicitud REST de clústeres de la API de Dataproc es iniciar el comando de --log-http equivalente mediante la marca . A continuación, se muestra un comando gcloud dataproc clusters create de muestra, que configura las propiedades del clúster con la marca --properties spark:spark.executor.memory=10g. El registro stdout muestra el cuerpo de la solicitud REST resultante (el fragmento properties se muestra a continuación):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Resultado:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

...
== body end ==
...

Asegúrate de cancelar el comando después de que el cuerpo JSON aparece en el resultado si no quieres que el comando se aplique.

Propiedades del clúster en comparación con propiedades del trabajo

Las Apache Hadoop YARN, HDFS, Spark y otras propiedades con prefijos de archivo se aplican a nivel de clúster cuando creas uno. Estas propiedades no se pueden aplicar a un clúster después de su creación. Sin embargo, muchas de estas propiedades también se pueden aplicar a trabajos específicos. Cuando se aplica una propiedad a un trabajo, no se usa el prefijo del archivo.

En el siguiente ejemplo, se establece la memoria del ejecutor de Spark en 4 g para un trabajo de Spark (se omite el prefijo spark:).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Las propiedades del trabajo se pueden enviar en un archivo con la marca gcloud dataproc jobs submit job-type --properties-file (consulta, por ejemplo, la descripción de --properties-file para el envío de un trabajo de Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

PROPERTIES_FILE es un conjunto de pares key=value delimitados por líneas. La propiedad que se establecerá es key, y el valor que se establecerá en la propiedad es value. Consulta la clase java.util.Properties para obtener una descripción detallada del formato del archivo de propiedades.

A continuación, se muestra un ejemplo de un archivo de propiedades que se puede pasar a la marca --properties-file cuando se envía un trabajo de Managed Service para Apache Spark.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabla de propiedades con prefijo de archivo

Prefijo de archivo	Archivo	Propósito del archivo
capacity-scheduler	capacity-scheduler.xml	Configuración de Hadoop YARN Capacity Scheduler
core	core-site.xml	Configuración general de Hadoop
distcp	distcp-default.xml	Configuración de Hadoop Distributed Copy
flink	flink-conf.yaml	Configuración de Flink
flink-log4j	log4j.properties	Archivo de configuración de Log4j
hadoop-env	hadoop-env.sh	Variables de entorno específicas de Hadoop
hadoop-log4j	log4j.properties	Archivo de configuración de Log4j
hbase	hbase-site.xml	Configuración de HBase
hbase-log4j	log4j.properties	Archivo de configuración de Log4j
hdfs	hdfs-site.xml	Configuración de Hadoop HDFS
hive	hive-site.xml	Configuración de Hive
hive-log4j2	hive-log4j2.properties	Archivo de configuración de Log4j
hudi	hudi-default.conf	Configuración de Hudi
mapred	mapred-site.xml	Configuración de Hadoop MapReduce
mapred-env	mapred-env.sh	Variables de entorno específicas de Hadoop MapReduce
pig	pig.properties	Configuración de Pig
pig-log4j	log4j.properties	Archivo de configuración de Log4j
presto	config.properties	Configuración de Presto
presto-jvm	jvm.config	Configuración de JVM específica de Presto
spark	spark-defaults.conf	Configuración de Spark
spark-env	spark-env.sh	Variables de entorno específicas de Spark
spark-log4j	log4j.properties	Archivo de configuración de Log4j
tez	tez-site.xml	Configuración de Tez
webcat-log4j	webhcat-log4j2.properties	Archivo de configuración de Log4j
yarn	yarn-site.xml	Configuración de Hadoop YARN
yarn-env	yarn-env.sh	Variables de entorno específicas de Hadoop YARN
zeppelin	zeppelin-site.xml	Configuración de Zeppelin
zeppelin-env	zeppelin-env.sh	Variables de entorno específicas de Zeppelin (solo componente opcional)
zeppelin-log4j	log4j.properties	Archivo de configuración de Log4j
zookeeper	zoo.cfg	Configuración de Zookeeper
zookeeper-log4j	log4j.properties	Archivo de configuración de Log4j

Notas

Algunas propiedades están reservadas y no se pueden anular porque afectan la funcionalidad del clúster de Managed Service para Apache Spark. Si intentas cambiar una propiedad reservada, recibirás un mensaje de error cuando crees tu clúster.
Puedes especificar varios cambios si los separas con una coma.
La marca --properties no puede modificar los archivos de configuración que no se muestran anteriormente.
Los cambios en las propiedades se aplicarán antes de que comiencen los daemons en tu clúster.
Si existe la propiedad especificada, se actualizará. Si no existe la propiedad especificada, se agregará al archivo de configuración.

Propiedades de Managed Service para Apache Spark

Las propiedades que se enumeran en esta sección son específicas de Managed Service para Apache Spark. Estas propiedades se pueden usar para configurar aún más la funcionalidad de tu clúster de Managed Service para Apache Spark.

Formato

La marca gcloud dataproc clusters create --properties acepta el siguiente formato de string:

property_prefix1:property1=value1,property_prefix2:property2=value2,...

El delimitador predeterminado que se usa para separar varias propiedades del clúster es la coma (,). Sin embargo, si se incluye una coma en un valor de propiedad, debes cambiar el delimitador especificando "^delimiter^" al comienzo de la lista de propiedades (consulta escape de tema de gcloud para obtener más información).
- Ejemplo con un delimitador “#”:
```
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
```

Ejemplo:

Crea un clúster y configura el modo de flexibilidad mejorada en la combinación aleatoria de trabajadores principales de Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Práctica recomendada: Para garantizar un comportamiento predecible del clúster, especifica los valores de las propiedades booleanas directamente como true o false en minúsculas.

Tabla de propiedades de Managed Service para Apache Spark

Prefijo de propiedad	Property	Valores	Descripción
dataproc	agent.process.threads.job.min	`number`	Managed Service para Apache Spark ejecuta controladores de trabajos del usuario de forma simultánea en un grupo de subprocesos. Esta propiedad controla la cantidad mínima de subprocesos en el grupo de subprocesos para un inicio rápido, incluso cuando no se ejecutan trabajos (predeterminado: 10).
dataproc	agent.process.threads.job.max	`number`	Managed Service para Apache Spark ejecuta controladores de trabajos del usuario de forma simultánea en un grupo de subprocesos. Esta propiedad controla la cantidad máxima de subprocesos en el grupo de subprocesos, por lo que limita la simultaneidad máxima de los trabajos de los usuarios. Aumenta este valor para una simultaneidad más alta (predeterminado: 100).
dataproc	am.primary_only	`true` o `false`	Configura esta propiedad en `true` para evitar que la aplicación principal se ejecute en los trabajadores interrumpibles del clúster de Managed Service para Apache Spark. Nota: Esta característica solo está disponible con Managed Service para Apache Spark 1.2 y versiones posteriores. El valor predeterminado es `false`.
dataproc	conda.env.config.uri	`gs://<path>`	Ubicación en Cloud Storage del archivo de configuración del entorno Conda. Se creará y activará un entorno Conda nuevo en función de este archivo. Para obtener más información, consulta Usa las propiedades del clúster relacionadas con Conda. (predeterminado: `empty`).
dataproc	conda.packages	Paquetes de Conda	Esta propiedad toma una lista de paquetes de Conda separados por comas con versiones específicas que se instalarán en el entorno Conda `base`. Para obtener más información, consulta Usa las propiedades del clúster relacionadas con Conda. (predeterminado: `empty`).
dataproc	dataproc.allow.zero.workers	`true` o `false`	Configura esta propiedad SoftwareConfig como `true` en una solicitud a la API de `clusters.create` para crear un clúster de nodo único, que cambia el número predeterminado de trabajadores de 2 a 0 y coloca los componentes del trabajador en el host principal. También se puede crear un clúster de un solo nodo desde la consola de Google Cloud o con Google Cloud CLI si configuras el número de trabajadores en `0`.
dataproc	dataproc.alpha.master.nvdimm.size.gb	1500-6500	Si configuras un valor, se crea una instancia principal de Managed Service para Apache Spark con memoria persistente Intel Optane DC. Nota: Las VM de Optane solo se pueden crear en zonas `us-central1-f`, solo con el tipo de máquina `n1-highmem-96-aep` y solo en proyectos incluidos en la lista blanca.
dataproc:	dataproc.alpha.worker.nvdimm.size.gb	1500-6500	Si configuras un valor, se crea un trabajador de Managed Service para Apache Spark con memoria persistente Intel Optane DC. Nota: Las VM de Optane solo se pueden crear en zonas `us-central1-f`, solo con el tipo de máquina `n1-highmem-96-aep` y solo en proyectos incluidos en la lista blanca.
dataproc:	dataproc.await-new-workers-service-registration	`true` o `false`	Esta propiedad está disponible en las imágenes 2.0.49 y versiones posteriores. El valor predeterminado es `false`. Configura esta propiedad en `true` para esperar a que los nuevos trabajadores principales registren líderes de servicio, como HDFS NameNode y YARN ResourceManager, durante la creación o el aumento de escala del clúster (solo se supervisan los servicios de HDFS y YARN). Cuando se establece en `true`, si un trabajador nuevo no se registra en un servicio, se le asigna el estado `FAILED`. Si el clúster se está ampliando, se quita el trabajador con errores. Si se está creando el clúster, se quita un trabajador con errores si se especificó la marca `gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE` o el campo `actionOnFailedPrimaryWorkers=DELETE` de la API como parte del comando `gcloud` o la solicitud de creación del clúster de la API.
dataproc:	dataproc.beta.secure.multi-tenancy.user.mapping	`user-to-service account mappings`	Esta propiedad toma una lista de asignaciones de usuario a cuenta de servicio. Los usuarios asignados pueden enviar cargas de trabajo interactivas al clúster con identidades de usuario aisladas (consulta Multiusuario seguro basado en cuentas de servicio de Managed Service para Apache Spark).
dataproc:	dataproc.cluster.caching.enabled	`true` o `false`	Cuando la caché del clúster está habilitada, el clúster almacena en caché los datos de Cloud Storage a los que acceden los trabajos de Spark, lo que mejora el rendimiento de los trabajos sin comprometer la coherencia. (predeterminado: `false`).
dataproc	dataproc.cluster-ttl.consider-yarn-activity	`true` o `false`	Cuando se configura en `true`, la eliminación programada del clúster considera la actividad de YARN y de la API de Jobs cuando calcula el tiempo de inactividad del clúster. Cuando se establece en `false`, solo se considera la actividad de la API de Jobs. (valor predeterminado: `true`). Para obtener más información, consulta Cálculo del tiempo de inactividad del clúster.
dataproc	dataproc.conscrypt.provider.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) Conscrypt como el proveedor de seguridad de Java principal. Nota: Conscrypt se habilita de forma predeterminada en Managed Service para Apache Spark 1.2 y versiones posteriores, pero se inhabilita en 1.0/1.1.
dataproc	dataproc.cooperative.multi-tenancy.user.mapping	`user-to-service account mappings`	Esta propiedad toma una lista de asignaciones de cuenta de servicio a usuario separadas por comas. Si se crea un clúster con este conjunto de propiedades, cuando un usuario envía un trabajo, el clúster intentará simular la cuenta de servicio correspondiente cuando accede a Cloud Storage a través del conector de Cloud Storage. Esta función requiere la versión del conector de Cloud Storage `2.1.4` o una versión posterior. Para obtener más información, consulta Multiusuario cooperativo de Managed Service para Apache Spark. (predeterminado: `empty`).
dataproc	dataproc.control.max.assigned.job.tasks	`100`	Esta propiedad limita la cantidad de tareas que se pueden ejecutar de forma simultánea en un nodo instancia principal del clúster. Si la cantidad de tareas activas supera el límite de tareas, los trabajos nuevos se ponen en cola hasta que se completen los trabajos en ejecución y se liberen recursos para permitir que se programen tareas nuevas. Nota: No se recomienda establecer un límite de tareas predeterminado superior a `100` (el valor predeterminado), ya que esto puede provocar una condición de falta de memoria en el nodo principal.
dataproc	dataproc:hudi.version	Versión de Hudi	Establece la versión de Hudi que se usa con el componente de Hudi de Managed Service para Apache Spark opcional. Nota: Managed Service para Apache Spark establece esta versión para que sea compatible con la versión de la imagen del clúster. Si el usuario la configura, la creación del clúster puede fallar si la versión especificada no es compatible con la imagen del clúster.
dataproc	dataproc.lineage.enabled	`true`	Habilita el linaje de datos en un clúster de Managed Service para Apache Spark para trabajos de Spark.
dataproc	dataproc.localssd.mount.enable	`true` o `false`	Ya sea para activar SSD locales como los directorios temporales de Hadoop/Spark y directorios de datos de HDFS (predeterminado: `true`).
dataproc	dataproc.logging.extended.enabled	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros en Cloud Logging para lo siguiente: `knox`, `zeppelin`, `ranger-usersync`, `jupyter_notebook`, `jupyter_kernel_gateway` y `spark-history-server` (predeterminado: `true`). Para obtener más información, consulta Registros del clúster de Managed Service for Apache Spark en Logging.
dataproc	dataproc.logging.stackdriver.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) Cloud Logging (predeterminado: `true`). Consulta los precios de Cloud Logging para conocer los cargos asociados.
dataproc	dataproc.logging.stackdriver.job.driver.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros del controlador de trabajo de Managed Service para Apache Spark en Cloud Logging. Consulta los registros y el resultado del trabajo de Managed Service para Apache Spark (valor predeterminado: `false`).
dataproc	dataproc.logging.stackdriver.job.yarn.container.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros de contenedor YARN en Cloud Logging. Consulta Opciones de salida del trabajo de Spark. (predeterminado: `false`).
dataproc	dataproc.logging.syslog.enabled	`true` o `false`	Habilita (`true`) o inhabilita (`false`) los registros del sistema de la VM en Cloud Logging (predeterminado: `true`).
dataproc	dataproc.master.custom.init.actions.mode	`RUN_BEFORE_SERVICES` o `RUN_AFTER_SERVICES`	En el caso de los clústeres de imágenes de más de 2.0, cuando se establece en `RUN_AFTER_SERVICES`, las acciones de inicialización en la instancia principal se ejecutarán después de HDFS y cualquier servicio que dependa de HDFS se inicialice. Algunos ejemplos de servicios dependientes de HDFS son HBase, Hive Server2, Ranger, Solr y los servidores de historial de Spark y MapReduce. (predeterminado: `RUN_BEFORE_SERVICES`).
dataproc	dataproc.monitoring.stackdriver.enable	`true` o `false`	Habilita (`true`) o inhabilita (`false`) el agente de supervisión (predeterminado: `false`). Esta propiedad está obsoleta. Consulta Habilita la recopilación de métricas personalizadas para habilitar la recopilación de métricas de OSS de Managed Service para Apache Spark en Monitoring.
dataproc	dataproc.scheduler.driver-size-mb	`number`	El alcance de memoria promedio del controlador, que determina la cantidad máxima de trabajos simultáneos que ejecutará un clúster El valor predeterminado es `1` GB. Un valor más pequeño, como `256`, puede ser adecuado para los trabajos de Spark.
dataproc	dataproc.scheduler.job-submission-rate	`number`	Los trabajos se limitan si se supera esta tasa. La tasa predeterminada es de `1.0` QPS.
dataproc	dataproc.scheduler.max-concurrent-jobs	`number`	La cantidad máxima de trabajos simultáneos. Si este valor no se establece cuando se crea el clúster, el límite superior de los trabajos simultáneos se calcula como `max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5)`. `masterMemoryMb` está determinado por el tipo de máquina de la VM principal. `masterMemoryMbPerJob` es `1024` de forma predeterminada, pero se puede configurar durante la creación del clúster con la propiedad de clúster `dataproc:dataproc.scheduler.driver-size-mb`.
dataproc	dataproc.scheduler.max-memory-used	`number`	Es la cantidad máxima de RAM que se puede usar. Si el uso actual supera este umbral, no se podrán programar trabajos nuevos. El valor predeterminado es `0.9` (90%). Si se configura como `1.0`, se inhabilita la limitación del trabajo master-memory-utilization.
dataproc	dataproc.scheduler.min-free-memory.mb	`number`	Es la cantidad mínima de memoria libre en megabytes que necesita el controlador de trabajos de Managed Service para Apache Spark para programar otro trabajo en el clúster. El valor predeterminado es `256` MB.
dataproc	dataproc.snap.enabled	`true` o `false`	Habilita o inhabilita el daemon de Snap Ubuntu. El valor predeterminado es `true`. Si se configura como `false`, los paquetes de Snape preinstalados no se ven afectados, pero la actualización automática está inhabilitada. Se aplica a las imágenes de Ubuntu 1.4.71, 1.5.46, 2.0.20 y posteriores.
dataproc	dataproc.worker.custom.init.actions.mode	`RUN_BEFORE_SERVICES`	En el caso de los clústeres de imágenes anteriores a 2.0, RUN_before_SERVICES no está establecido, pero el usuario puede configurarlo cuando se crea el clúster. Para clústeres de imágenes posteriores a la versión 2.0, se configura RUN_before_SERVICES y no se puede pasar la propiedad al clúster (el usuario no puede cambiarla). Para obtener información sobre el efecto de esta configuración, consulta Consideraciones y lineamientos importantes: procesamiento de inicialización.
dataproc	dataproc.yarn.orphaned-app-termination.enable	`true` o `false`	El valor predeterminado es `true`. Se establece en `false` para evitar que Managed Service para Apache Spark finalice las apps de YARN "huérfanas". Managed Service para Apache Spark considera que una app de YARN está huérfana si el controlador de trabajo que envió la app de YARN salió. Advertencia: Si usas el modo de clúster de Spark (`spark.submit.deployMode=cluster`) y estableces `spark.yarn.submit.waitAppCompletion=false`, el controlador de Spark saldrá sin esperar a que se completen las apps de YARN. En este caso, establece `dataproc:dataproc.yarn.orphaned-app-termination.enable=false`. También configura esta propiedad en `false` si envías trabajos de Hive.
dataproc	diagnostic.capture.enabled	`true` o `false`	Habilita la recopilación de datos de diagnóstico de puntos de control del clúster. (predeterminado: `true`).
dataproc	diagnostic.capture.access	`GOOGLE_DATAPROC_DIAGNOSE`	Si se configura como `GOOGLE_DATAPROC_DIAGNOSE`, los datos de diagnóstico de los puntos de control del clúster, que se guardan en Cloud Storage, se comparten con el equipo de asistencia de Managed Service para Apache Spark. (valor predeterminado: no establecido).
dataproc	efm.spark.shuffle	`primary-worker`	Si se configura como `primary-worker`, los datos de la redistribución de Spark se escriben en los trabajadores principales". Consulta Modo de flexibilidad mejorada de Managed Service para Apache Spark para obtener más información.
dataproc	job.history.to-gcs.enabled	`true` o `false`	Permite conservar los archivos de historial de MapReduce y Spark en el bucket temporal de Managed Service para Apache Spark (predeterminado: `true` para las versiones de imagen 1.5 o superior). Los usuarios pueden reemplazar las ubicaciones de la persistencia de los archivos del historial de trabajos a través de las siguientes propiedades: `mapreduce.jobhistory.done-dir`, `mapreduce.jobhistory.intermediate-done-dir`, `spark.eventLog.dir` y `spark.history.fs.logDirectory`. Consulta Servidor de historial persistente de Managed Service para Apache Spark para obtener información sobre estas y otras propiedades del clúster asociadas con los archivos de eventos y el historial de trabajos de Managed Service para Apache Spark.
dataproc	jobs.file-backed-output.enable	`true` o `false`	Configura los trabajos de Managed Service para Apache Spark para canalizar su resultado en archivos temporales en el directorio `/var/log/google-dataproc-job`. Se debe configurar como `true` para habilitar el registro del controlador de trabajos en Cloud Logging (predeterminado: `true`).
dataproc	jupyter.listen.all.interfaces	`true` o `false`	Para reducir el riesgo de ejecución del código remoto en las API de servidor de notebook no seguro, la configuración predeterminada para las versiones con imágenes 1.3 y posteriores es `false`, que restringe las conexiones a `localhost` (`127.0.0.1`) cuando la puerta de enlace del componente está habilitado (no se requiere activación de la puerta de enlace de componentes para imágenes posteriores a 2.0). Esta configuración predeterminada se puede anular. Para hacerlo, establece esta propiedad en `true` para permitir todas las conexiones.
dataproc	jupyter.notebook.gcs.dir	`gs://<dir-path>`	Ubicación en Cloud Storage para guardar notebooks de Jupyter.
dataproc	kerberos.beta.automatic-config.enable	`true` o `false`	Cuando se establece como `true`, los usuarios no necesitan especificar la contraseña principal de Kerberos con las marcas `--kerberos-root-principal-password` y `--kerberos-kms-key-uri` (predeterminado: `false`). Consulta Habilita el modo seguro de Hadoop mediante Kerberos para obtener más información.
dataproc	kerberos.cross-realm-trust.admin-server	`hostname/address`	nombre de host/dirección del servidor de administrador remoto (a menudo, igual que el servidor KDC).
dataproc	kerberos.cross-realm-trust.kdc	`hostname/address`	nombre de host/dirección de KDC remoto.
dataproc	kerberos.cross-realm-trust.realm	`realm name`	Los nombres reales pueden consistir en cualquier string ASCII en MAYÚSCULAS. Por lo general, el nombre de dominio es el mismo que el nombre de dominio DNS (en MAYÚSCULAS). Ejemplo: Si las máquinas se denominan "`machine-id`.example.west-coast.mycompany.com", el dominio asociado puede designarse como "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc	kerberos.cross-realm-trust.shared-password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña compartida encriptada en KMS.
dataproc	kerberos.kdc.db.key.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo encriptado de KMS que contiene la clave de instancia principal de la base de datos de KDC.
dataproc	kerberos.key.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo encriptado por KMS que contiene la contraseña de la clave en el archivo del almacén de claves.
dataproc	kerberos.keystore.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo encriptado por KMS que contiene la contraseña del almacén de claves.
dataproc	kerberos.keystore.uri¹	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo de almacén de claves que contiene el certificado comodín y la clave privada que usan los nodos del clúster.
dataproc	kerberos.kms.key.uri	`KMS key URI`	El URI de la clave de KMS que se usa para desencriptar la contraseña raíz, por ejemplo `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (consulta ID de recurso de la clave).
dataproc	kerberos.root.principal.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña encriptada por KMS para la cuenta principal raíz de Kerberos.
dataproc	kerberos.tgt.lifetime.hours	`hours`	Duración máxima del ticket comprobante.
dataproc	kerberos.truststore.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo encriptado por KMS que contiene la contraseña del archivo de Truststore.
dataproc	kerberos.truststore.uri²	`gs://<dir-path>`	Ubicación en Cloud Storage del archivo del almacén de confianza encriptado mediante KMS que contiene certificados de confianza.
dataproc	pip.packages	Paquetes de tecnología central	Esta propiedad toma una lista de paquetes de tecnología central separados por comas con versiones específicas que se instalarán en el entorno Conda `base`. Para obtener más información, consulta Propiedades del clúster relacionadas con Conda. (predeterminado: `empty`).
dataproc	ranger.kms.key.uri	`KMS key URI`	El URI de la clave KMS que se usa para desencriptar la contraseña del usuario administrador de Ranger, por ejemplo `projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key` (consulta ID de recurso de la clave).
dataproc	ranger.admin.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña encriptada mediante KMS para el usuario administrador Ranger.
dataproc	ranger.db.admin.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña encriptada mediante KMS para el usuario administrador de la base de datos Ranger.
dataproc	ranger.cloud-sql.instance.connection.name	`cloud sql instance connection name`	El nombre de conexión de la instancia de Cloud SQL, por ejemplo, `project-id:region:name.`.
dataproc	ranger.cloud-sql.root.password.uri	`gs://<dir-path>`	Ubicación en Cloud Storage de la contraseña encriptada mediante KMS para el usuario raíz de la instancia de Cloud SQL.
dataproc	ranger.cloud-sql.use-private-ip	`true` o `false`	Si la comunicación entre las instancias del clúster y la instancia de Cloud SQL debe realizarse mediante una IP privada (el valor predeterminado es `false`).
dataproc	solr.gcs.path	`gs://<dir-path>`	Ruta de acceso de Cloud Storage para que actúe como el directorio principal de Solr.
dataproc	startup.component.service-binding-timeout.hadoop-hdfs-namenode	`seconds`	Es la cantidad de tiempo que esperará la secuencia de comandos de inicio de Managed Service para Apache Spark a fin de que hadoop-hdfs-namenode se vincule a los puertos antes de decidir que su inicio se realizó correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc	startup.component.service-binding-timeout.hive-metastore	`seconds`	Es la cantidad de tiempo que esperará la secuencia de comandos de inicio de Managed Service for Apache Spark a fin de que el servicio hive-metastore se vincule a los puertos antes de decidir que su inicio se realizó correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc	startup.component.service-binding-timeout.hive-server2	`seconds`	Es la cantidad de tiempo que esperará la secuencia de comandos de inicio de Managed Service para Apache Spark a fin de que hive-server2 se vincule a los puertos antes de decidir que su inicio se realizó correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc	user-attribution.enabled	`true` o `false`	Configura esta propiedad en `true` para atribuir un trabajo de Managed Service para Apache Spark a la identidad del usuario que lo envió (el valor predeterminado es `false`).
dataproc	yarn.docker.enable	`true` o `false`	Establece el valor en `true` para habilitar la función Managed Service para Apache Spark Docker en YARN (el valor predeterminado es `false`).
dataproc	yarn.docker.image	`docker image`	Cuando habilitas la función Managed Service para Apache Spark Docker en YARN (`dataproc:yarn.docker.enable=true`), puedes usar esta propiedad opcional para especificar tu imagen de Docker (por ejemplo, `dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1`). Si se especifica, la imagen se descarga y se almacena en caché en todos los nodos del clúster durante la creación del clúster.
dataproc	yarn.log-aggregation.enabled	`true` o `false`	Permite (`true`) activar la agregación de registros YARN en el `temp bucket` del clúster. El nombre del bucket tiene el siguiente formato: `dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>`. (predeterminado: `true` para las versiones de imagen 1.5 o posteriores). Nota: Cuando se borra el clúster, el bucket temporal no se borra. Además, los usuarios pueden establecer la ubicación de los registros YARN agregados si reemplazan de la propiedad `yarn.nodemanager.remote-app-log-dir` de YARN.
knox	gateway.host	`ip address`	Para reducir el riesgo de ejecución de código remoto en las API de servidor de notebook no seguro, la configuración predeterminada para las versiones con imágenes 1.3 y posteriores es `127.0.0.1`, que restringe las conexiones a `localhost` cuando la puerta de enlace del componente está habilitada. La configuración predeterminada se puede anular, por ejemplo, mediante la configuración de esta propiedad en `0.0.0.0` para permitir todas las conexiones.
zeppelin	zeppelin.notebook.gcs.dir	`gs://<dir-path>`	Ubicación en Cloud Storage para guardar notebooks de Zeppelin.
zeppelin	zeppelin.server.addr	`ip address`	Para reducir el riesgo de ejecución del código remoto en las API de servidor de notebook no seguro, la configuración predeterminada para las versiones con imágenes 1.3 y posteriores es `127.0.0.1`, que restringe las conexiones a `localhost` cuando la puerta de enlace del componente está habilitada. Esta configuración predeterminada se puede anular, por ejemplo, mediante la configuración de esta propiedad en `0.0.0.0`, para permitir todas las conexiones.

¹Archivo de almacén de claves: El archivo de almacén de claves contiene el certificado SSL. Debe estar en formato Java KeyStore (JKS). Cuando se copia en VM, se le cambia el nombre a keystore.jks. El certificado SSL debe ser un certificado comodín que se aplica a cada nodo en el clúster.

²Archivo de almacén de confianza: El archivo de almacén de confianza debe estar en formato Java KeyStore (JKS). Cuando se copia en VM, se le cambia el nombre a truststore.jks.

Propiedades del clúster Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Apache Hadoop YARN, HDFS, Spark y propiedades relacionadas

Formato

Ejemplos

Consola deGoogle Cloud

gcloud CLI

API de REST

Propiedades del clúster en comparación con propiedades del trabajo

Tabla de propiedades con prefijo de archivo

Propiedades de Managed Service para Apache Spark

Formato

Tabla de propiedades de Managed Service para Apache Spark

Propiedades del clúster