Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Propiedades del aprovisionador de Managed Service for Apache Spark

El aprovisionador de Managed Service for Apache Spark en Cloud Data Fusion llama a la API de Dataproc para crear y borrar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en la configuración del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las versiones del servicio administrado para Apache Spark, consulta Compatibilidad de versiones.

Propiedades

Propiedad	Descripción
ID del proyecto	Es el proyecto Google Cloud en el que se crea el clúster del servicio administrado para Apache Spark. El proyecto debe tener habilitada la API de Dataproc.
Clave de la cuenta de servicio del creador	La clave de la cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las APIs de Managed Service for Apache Spark y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage. Después de crear la clave segura, puedes agregarla a un espacio de nombres o a un perfil de procesamiento del sistema. En el caso de un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. En el caso de un perfil de procesamiento del sistema, ingresa el nombre de la clave en el campo Clave de cuenta segura.
Región	Es una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de procesamiento del clúster de Managed Service para Apache Spark.
Zona	Es un área de implementación aislada dentro de una región.
Red	La red de VPC en tu proyecto Google Cloud que se usará cuando crees un clúster de Managed Service for Apache Spark.
ID del proyecto host de la red	Si la red reside en otro Google Cloud proyecto, ingresa el ID de ese proyecto. En el caso de una VPC compartida, ingresa el ID del proyecto host en el que reside la red.
Subred	Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se selecciona una subred en función de la red y la zona.
Cuenta de servicio del Runner	Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Managed Service for Apache Spark que se usan para ejecutar programas. Si se deja en blanco, se usa la cuenta de servicio predeterminada de Compute Engine.
Cantidad de copias maestras	Es la cantidad de nodos principales del clúster. Estos nodos contienen el administrador de recursos de YARN, el NameNode de HDFS y todos los controladores. Debe establecerse en 1 o 3. La cantidad predeterminada es 1.
Tipo de máquina principal	Es el tipo de máquina principal que se usará. Selecciona uno de los siguientes tipos de máquinas: n1 n2 n2d e2 En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1.
Núcleos principales	Cantidad de núcleos virtuales asignados a un nodo principal. El valor predeterminado es 2.
Memoria principal (GB)	Cantidad de memoria, en gigabytes, asignada a un nodo principal. El valor predeterminado es 8 GB.
Tamaño del disco principal (GB)	Es el tamaño del disco, en gigabytes, asignado a un nodo principal. El valor predeterminado es 1,000 GB.
Tipo de disco principal	Tipo de disco de arranque para un nodo principal: Disco persistente estándar Disco persistente SSD El valor predeterminado es disco persistente estándar.
Tipo de máquina de trabajador	Es el tipo de máquina trabajadora que se usará. Selecciona uno de los siguientes tipos de máquinas: n1 n2 n2d e2 En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1.
Núcleos de trabajadores	Es la cantidad de núcleos virtuales asignados a un nodo trabajador. El valor predeterminado es 2.
Memoria del trabajador (GB)	Cantidad de memoria, en gigabytes, asignada a un nodo trabajador. El valor predeterminado es 8 GB.
Tamaño del disco del trabajador (GB)	Tamaño del disco, en gigabytes, asignado a un nodo trabajador. El valor predeterminado es 1,000 GB.
Tipo de disco del trabajador	Tipo de disco de arranque para un nodo trabajador: Disco persistente estándar Disco persistente SSD El valor predeterminado es disco persistente estándar.
Usa el ajuste de escala automático predefinido	Permite usar el ajuste de escala automático predefinido de Managed Service para Apache Spark.
Cantidad de trabajadores principales	Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS. El valor predeterminado es 2.
Cantidad de trabajadores secundarios	Los nodos de trabajadores secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Normalmente, este valor se establece en cero, a menos que una política de ajuste de escala automático requiera que sea más alto.
Política de ajuste de escala automático	Es la ruta de acceso al ID de la política de escalado automático o al URI del recurso. Si deseas obtener información para configurar y usar el ajuste de escala automático de Managed Service for Apache Spark para cambiar el tamaño de los clústeres de forma automática y dinámica según las demandas de carga de trabajo, consulta Cuándo usar el ajuste de escala automático y Ajusta la escala de los clústeres de Managed Service for Apache Spark automáticamente.
Metadatos	Son metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargo. Para obtener más información, consulta Metadatos del clúster.
Etiquetas de red	Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número.
Habilita el inicio seguro	Habilita el inicio seguro en las VMs del servicio administrado para Apache Spark. El valor predeterminado es False.
Habilitar vTPM	Habilita el módulo de plataforma segura virtual (vTPM) en las VMs de Managed Service for Apache Spark. El valor predeterminado es False.
Habilita la supervisión de integridad	Habilita la supervisión de integridad virtual en las VMs del servicio administrado para Apache Spark. El valor predeterminado es False.
Versión de la imagen	Es la versión de la imagen del servicio administrado para Apache Spark. Si se deja en blanco, se seleccionará una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignorará.
URI de imagen personalizada	Es el URI de la imagen del servicio administrado para Apache Spark. Si se deja en blanco, se infiere a partir de la propiedad Versión de la imagen.
Bucket de etapa de pruebas	Bucket de Cloud Storage que se usa para almacenar en etapa intermedia las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Managed Service for Apache Spark.
Bucket temporal	Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Managed Service for Apache Spark. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.
Nombre de clave de encriptación	Es la clave de encriptación administrada por el cliente (CMEK) que usa el Servicio administrado para Apache Spark.
Alcances de OAuth	Los permisos de OAuth 2.0 que tal vez debas solicitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Google Cloud Platform Scope siempre se incluye. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.
Acciones de inicialización	Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster	Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes	Son etiquetas para organizar los clústeres y los trabajos de Managed Service para Apache Spark que se están creando. Puedes etiquetar cada recurso y, luego, filtrarlos por etiquetas. La información sobre las etiquetas se reenvía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación por etiqueta.
Tiempo máx. de inactividad	Configura Managed Service for Apache Spark para que borre un clúster si está inactivo durante más tiempo que la cantidad de minutos especificada. Por lo general, los clústeres se borran inmediatamente después de que finaliza una ejecución, pero, en situaciones excepcionales, la eliminación puede fallar. Para obtener más información, consulta Soluciona problemas relacionados con la eliminación de clústeres. El valor predeterminado es 30 minutos.
Omitir el borrado del clúster	Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar los clústeres de forma manual. Esto solo debe usarse cuando se depure una ejecución fallida. El valor predeterminado es False.
Habilita la integración de Stackdriver Logging	Habilita la integración de Stackdriver Logging. El valor predeterminado es True.
Habilita la integración de Stackdriver Monitoring	Habilita la integración de Stackdriver Monitoring. El valor predeterminado es True.
Habilita la puerta de enlace de componentes	Habilita la puerta de enlace del componente para acceder a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer. El valor predeterminado es False.
Preferir IP externa	Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, normalmente usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True. El valor predeterminado es False.
Retraso en la creación de la encuesta	Cantidad de segundos que se espera después de crear un clúster para comenzar a sondear y ver si se creó el clúster. El valor predeterminado es 60 segundos. La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y eliminan clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, es posible que quieras cambiar estos parámetros de configuración.
Crea una variación en la encuesta	Cantidad máxima de fluctuación aleatoria, en segundos, que se agregará a la demora cuando se cree un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tienes muchas canalizaciones programadas para ejecutarse exactamente al mismo tiempo. El valor predeterminado es 20 segundos.
Demora en el borrado de la encuesta	Cantidad de segundos que se deben esperar después de borrar un clúster para comenzar a sondear y ver si se borró. El valor predeterminado es 30 segundos.
Intervalo de sondeo	Cantidad de segundos que se espera entre las verificaciones del estado del clúster. El valor predeterminado es 2.

Propiedades de la interfaz web del perfil de Managed Service para Apache Spark asignadas a propiedades JSON

Nombre de la propiedad de la IU del perfil de Managed Service para Apache Spark	Nombre de la propiedad JSON del perfil de Managed Service for Apache Spark
Etiqueta de perfil	`name`
Nombre del perfil	`label`
Descripción	`description`
ID del proyecto	`projectId`
Clave de la cuenta de servicio del creador	`accountKey`
Región	`region`
Zona	`zone`
Red	`network`
ID del proyecto host de la red	`networkHostProjectId`
Subred	`subnet`
Cuenta de servicio del Runner	`serviceAccount`
Cantidad de copias maestras	`masterNumNodes`
Tipo de máquina principal	`masterMachineType`
Núcleos principales	`masterCPUs`
Memoria principal (GB)	`masterMemoryMB`
Tamaño del disco principal (GB)	`masterDiskGB`
Tipo de disco principal	`masterDiskType`
Cantidad de trabajadores principales	`workerNumNodes`
Cantidad de trabajadores secundarios	`secondaryWorkerNumNodes`
Tipo de máquina de trabajador	`workerMachineType`
Núcleos de trabajadores	`workerCPUs`
Memoria del trabajador (GB)	`workerMemoryMB`
Tamaño del disco del trabajador (GB)	`workerDiskGB`
Tipo de disco del trabajador	`workerDiskType`
Metadatos	`clusterMetaData`
Etiquetas de red	`networkTags`
Habilita el inicio seguro	`secureBootEnabled`
Habilitar vTPM	`vTpmEnabled`
Habilita la supervisión de integridad	`integrityMonitoringEnabled`
Versión de la imagen	`imageVersion`
URI de imagen personalizada	`customImageUri`
Bucket de Cloud Storage	`gcsBucket`
Nombre de clave de encriptación	`encryptionKeyName`
Política de ajuste de escala automático	`autoScalingPolicy`
Acciones de inicialización	`initActions`
Propiedades del clúster	`clusterProperties`
Etiquetas	`clusterLabels`
Tiempo máx. de inactividad	`idleTTL`
Omitir el borrado del clúster	`skipDelete`
Habilita la integración de Stackdriver Logging	`stackdriverLoggingEnabled`
Habilita la integración de Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Habilita la puerta de enlace de componentes	`componentGatewayEnabled`
Preferir IP externa	`preferExternalIP`
Retraso en la creación de la encuesta	`pollCreateDelay`
Crea una variación en la encuesta	`pollCreateJitter`
Demora en el borrado de la encuesta	`pollDeleteDelay`
Intervalo de sondeo	`pollInterval`

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas para la configuración de clústeres.

¿Qué sigue?

Obtén más información para administrar perfiles de procesamiento.

Propiedades del aprovisionador de Managed Service for Apache Spark Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Propiedades

Propiedades de la interfaz web del perfil de Managed Service para Apache Spark asignadas a propiedades JSON

Prácticas recomendadas

¿Qué sigue?

Propiedades del aprovisionador de Managed Service for Apache Spark