Propiedades del aprovisionador de Managed Service for Apache Spark

El aprovisionador de Managed Service for Apache Spark en Cloud Data Fusion llama a la API de Dataproc para crear y borrar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en la configuración del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las versiones del servicio administrado para Apache Spark, consulta Compatibilidad de versiones.

Propiedades

Propiedad Descripción
ID del proyecto Es el proyecto Google Cloud en el que se crea el clúster del servicio administrado para Apache Spark. El proyecto debe tener habilitada la API de Dataproc.
Clave de la cuenta de servicio del creador

La clave de la cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las APIs de Managed Service for Apache Spark y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage.

Después de crear la clave segura, puedes agregarla a un espacio de nombres o a un perfil de procesamiento del sistema. En el caso de un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. En el caso de un perfil de procesamiento del sistema, ingresa el nombre de la clave en el campo Clave de cuenta segura.

Región Es una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de procesamiento del clúster de Managed Service para Apache Spark.
Zona Es un área de implementación aislada dentro de una región.
Red La red de VPC en tu proyecto Google Cloud que se usará cuando crees un clúster de Managed Service for Apache Spark.
ID del proyecto host de la red Si la red reside en otro Google Cloud proyecto, ingresa el ID de ese proyecto. En el caso de una VPC compartida, ingresa el ID del proyecto host en el que reside la red.
Subred Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se selecciona una subred en función de la red y la zona.
Cuenta de servicio del Runner Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Managed Service for Apache Spark que se usan para ejecutar programas. Si se deja en blanco, se usa la cuenta de servicio predeterminada de Compute Engine.
Cantidad de copias maestras

Es la cantidad de nodos principales del clúster. Estos nodos contienen el administrador de recursos de YARN, el NameNode de HDFS y todos los controladores. Debe establecerse en 1 o 3.

La cantidad predeterminada es 1.

Tipo de máquina principal

Es el tipo de máquina principal que se usará. Selecciona uno de los siguientes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2.

En la versión 6.7.1, el valor predeterminado es n2.

En la versión 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos principales

Cantidad de núcleos virtuales asignados a un nodo principal.

El valor predeterminado es 2.

Memoria principal (GB)

Cantidad de memoria, en gigabytes, asignada a un nodo principal.

El valor predeterminado es 8 GB.

Tamaño del disco principal (GB)

Es el tamaño del disco, en gigabytes, asignado a un nodo principal.

El valor predeterminado es 1,000 GB.

Tipo de disco principal

Tipo de disco de arranque para un nodo principal:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es disco persistente estándar.

Tipo de máquina de trabajador

Es el tipo de máquina trabajadora que se usará. Selecciona uno de los siguientes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2.

En la versión 6.7.1, el valor predeterminado es n2.

En la versión 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos de trabajadores

Es la cantidad de núcleos virtuales asignados a un nodo trabajador.

El valor predeterminado es 2.

Memoria del trabajador (GB)

Cantidad de memoria, en gigabytes, asignada a un nodo trabajador.

El valor predeterminado es 8 GB.

Tamaño del disco del trabajador (GB)

Tamaño del disco, en gigabytes, asignado a un nodo trabajador.

El valor predeterminado es 1,000 GB.

Tipo de disco del trabajador

Tipo de disco de arranque para un nodo trabajador:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es disco persistente estándar.

Usa el ajuste de escala automático predefinido Permite usar el ajuste de escala automático predefinido de Managed Service para Apache Spark.
Cantidad de trabajadores principales

Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS.

El valor predeterminado es 2.

Cantidad de trabajadores secundarios Los nodos de trabajadores secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Normalmente, este valor se establece en cero, a menos que una política de ajuste de escala automático requiera que sea más alto.
Política de ajuste de escala automático

Es la ruta de acceso al ID de la política de escalado automático o al URI del recurso.

Si deseas obtener información para configurar y usar el ajuste de escala automático de Managed Service for Apache Spark para cambiar el tamaño de los clústeres de forma automática y dinámica según las demandas de carga de trabajo, consulta Cuándo usar el ajuste de escala automático y Ajusta la escala de los clústeres de Managed Service for Apache Spark automáticamente.

Metadatos Son metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargo. Para obtener más información, consulta Metadatos del clúster.
Etiquetas de red Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número.
Habilita el inicio seguro

Habilita el inicio seguro en las VMs del servicio administrado para Apache Spark.

El valor predeterminado es False.

Habilitar vTPM

Habilita el módulo de plataforma segura virtual (vTPM) en las VMs de Managed Service for Apache Spark.

El valor predeterminado es False.

Habilita la supervisión de integridad

Habilita la supervisión de integridad virtual en las VMs del servicio administrado para Apache Spark.

El valor predeterminado es False.

Versión de la imagen Es la versión de la imagen del servicio administrado para Apache Spark. Si se deja en blanco, se seleccionará una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignorará.
URI de imagen personalizada Es el URI de la imagen del servicio administrado para Apache Spark. Si se deja en blanco, se infiere a partir de la propiedad Versión de la imagen.
Bucket de etapa de pruebas Bucket de Cloud Storage que se usa para almacenar en etapa intermedia las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Managed Service for Apache Spark.
Bucket temporal

Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Managed Service for Apache Spark.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Nombre de clave de encriptación Es la clave de encriptación administrada por el cliente (CMEK) que usa el Servicio administrado para Apache Spark.
Alcances de OAuth

Los permisos de OAuth 2.0 que tal vez debas solicitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Google Cloud Platform Scope siempre se incluye.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Acciones de inicialización Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes

Son etiquetas para organizar los clústeres y los trabajos de Managed Service para Apache Spark que se están creando.

Puedes etiquetar cada recurso y, luego, filtrarlos por etiquetas. La información sobre las etiquetas se reenvía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación por etiqueta.

Tiempo máx. de inactividad

Configura Managed Service for Apache Spark para que borre un clúster si está inactivo durante más tiempo que la cantidad de minutos especificada. Por lo general, los clústeres se borran inmediatamente después de que finaliza una ejecución, pero, en situaciones excepcionales, la eliminación puede fallar. Para obtener más información, consulta Soluciona problemas relacionados con la eliminación de clústeres.

El valor predeterminado es 30 minutos.

Omitir el borrado del clúster

Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar los clústeres de forma manual. Esto solo debe usarse cuando se depure una ejecución fallida.

El valor predeterminado es False.

Habilita la integración de Stackdriver Logging

Habilita la integración de Stackdriver Logging.

El valor predeterminado es True.

Habilita la integración de Stackdriver Monitoring

Habilita la integración de Stackdriver Monitoring.

El valor predeterminado es True.

Habilita la puerta de enlace de componentes

Habilita la puerta de enlace del componente para acceder a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer.

El valor predeterminado es False.

Preferir IP externa

Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, normalmente usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True.

El valor predeterminado es False.

Retraso en la creación de la encuesta

Cantidad de segundos que se espera después de crear un clúster para comenzar a sondear y ver si se creó el clúster.

El valor predeterminado es 60 segundos.

La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y eliminan clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, es posible que quieras cambiar estos parámetros de configuración.

Crea una variación en la encuesta

Cantidad máxima de fluctuación aleatoria, en segundos, que se agregará a la demora cuando se cree un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tienes muchas canalizaciones programadas para ejecutarse exactamente al mismo tiempo.

El valor predeterminado es 20 segundos.

Demora en el borrado de la encuesta

Cantidad de segundos que se deben esperar después de borrar un clúster para comenzar a sondear y ver si se borró.

El valor predeterminado es 30 segundos.

Intervalo de sondeo

Cantidad de segundos que se espera entre las verificaciones del estado del clúster.

El valor predeterminado es 2.

Propiedades de la interfaz web del perfil de Managed Service para Apache Spark asignadas a propiedades JSON

Nombre de la propiedad de la IU del perfil de Managed Service para Apache Spark Nombre de la propiedad JSON del perfil de Managed Service for Apache Spark
Etiqueta de perfil name
Nombre del perfil label
Descripción description
ID del proyecto projectId
Clave de la cuenta de servicio del creador accountKey
Región region
Zona zone
Red network
ID del proyecto host de la red networkHostProjectId
Subred subnet
Cuenta de servicio del Runner serviceAccount
Cantidad de copias maestras masterNumNodes
Tipo de máquina principal masterMachineType
Núcleos principales masterCPUs
Memoria principal (GB) masterMemoryMB
Tamaño del disco principal (GB) masterDiskGB
Tipo de disco principal masterDiskType
Cantidad de trabajadores principales workerNumNodes
Cantidad de trabajadores secundarios secondaryWorkerNumNodes
Tipo de máquina de trabajador workerMachineType
Núcleos de trabajadores workerCPUs
Memoria del trabajador (GB) workerMemoryMB
Tamaño del disco del trabajador (GB) workerDiskGB
Tipo de disco del trabajador workerDiskType
Metadatos clusterMetaData
Etiquetas de red networkTags
Habilita el inicio seguro secureBootEnabled
Habilitar vTPM vTpmEnabled
Habilita la supervisión de integridad integrityMonitoringEnabled
Versión de la imagen imageVersion
URI de imagen personalizada customImageUri
Bucket de Cloud Storage gcsBucket
Nombre de clave de encriptación encryptionKeyName
Política de ajuste de escala automático autoScalingPolicy
Acciones de inicialización initActions
Propiedades del clúster clusterProperties
Etiquetas clusterLabels
Tiempo máx. de inactividad idleTTL
Omitir el borrado del clúster skipDelete
Habilita la integración de Stackdriver Logging stackdriverLoggingEnabled
Habilita la integración de Stackdriver Monitoring stackdriverMonitoringEnabled
Habilita la puerta de enlace de componentes componentGatewayEnabled
Preferir IP externa preferExternalIP
Retraso en la creación de la encuesta pollCreateDelay
Crea una variación en la encuesta pollCreateJitter
Demora en el borrado de la encuesta pollDeleteDelay
Intervalo de sondeo pollInterval

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas para la configuración de clústeres.

¿Qué sigue?