El aprovisionador de Managed Service for Apache Spark en Cloud Data Fusion llama a la API de Dataproc para crear y borrar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en la configuración del aprovisionador.
Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las versiones del servicio administrado para Apache Spark, consulta Compatibilidad de versiones.
Propiedades
| Propiedad | Descripción |
|---|---|
| ID del proyecto | Es el proyecto Google Cloud en el que se crea el clúster del servicio administrado para Apache Spark. El proyecto debe tener habilitada la API de Dataproc. |
| Clave de la cuenta de servicio del creador | La clave de la cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las APIs de Managed Service for Apache Spark y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage. Después de crear la clave segura, puedes agregarla a un espacio de nombres o a un perfil de procesamiento del sistema. En el caso de un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. En el caso de un perfil de procesamiento del sistema, ingresa el nombre de la clave en el campo Clave de cuenta segura. |
| Región | Es una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de procesamiento del clúster de Managed Service para Apache Spark. |
| Zona | Es un área de implementación aislada dentro de una región. |
| Red | La red de VPC en tu proyecto Google Cloud que se usará cuando crees un clúster de Managed Service for Apache Spark. |
| ID del proyecto host de la red | Si la red reside en otro Google Cloud proyecto, ingresa el ID de ese proyecto. En el caso de una VPC compartida, ingresa el ID del proyecto host en el que reside la red. |
| Subred | Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se selecciona una subred en función de la red y la zona. |
| Cuenta de servicio del Runner | Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Managed Service for Apache Spark que se usan para ejecutar programas. Si se deja en blanco, se usa la cuenta de servicio predeterminada de Compute Engine. |
| Cantidad de copias maestras | Es la cantidad de nodos principales del clúster. Estos nodos contienen el administrador de recursos de YARN, el NameNode de HDFS y todos los controladores. Debe establecerse en 1 o 3. La cantidad predeterminada es 1. |
| Tipo de máquina principal | Es el tipo de máquina principal que se usará. Selecciona uno de los siguientes tipos de máquinas:
En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1. |
| Núcleos principales | Cantidad de núcleos virtuales asignados a un nodo principal. El valor predeterminado es 2. |
| Memoria principal (GB) | Cantidad de memoria, en gigabytes, asignada a un nodo principal. El valor predeterminado es 8 GB. |
| Tamaño del disco principal (GB) | Es el tamaño del disco, en gigabytes, asignado a un nodo principal. El valor predeterminado es 1,000 GB. |
| Tipo de disco principal | Tipo de disco de arranque para un nodo principal:
El valor predeterminado es disco persistente estándar. |
| Tipo de máquina de trabajador | Es el tipo de máquina trabajadora que se usará. Selecciona uno de los siguientes tipos de máquinas:
En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1. |
| Núcleos de trabajadores | Es la cantidad de núcleos virtuales asignados a un nodo trabajador. El valor predeterminado es 2. |
| Memoria del trabajador (GB) | Cantidad de memoria, en gigabytes, asignada a un nodo trabajador. El valor predeterminado es 8 GB. |
| Tamaño del disco del trabajador (GB) | Tamaño del disco, en gigabytes, asignado a un nodo trabajador. El valor predeterminado es 1,000 GB. |
| Tipo de disco del trabajador | Tipo de disco de arranque para un nodo trabajador:
El valor predeterminado es disco persistente estándar. |
| Usa el ajuste de escala automático predefinido | Permite usar el ajuste de escala automático predefinido de Managed Service para Apache Spark. |
| Cantidad de trabajadores principales | Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS. El valor predeterminado es 2. |
| Cantidad de trabajadores secundarios | Los nodos de trabajadores secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Normalmente, este valor se establece en cero, a menos que una política de ajuste de escala automático requiera que sea más alto. |
| Política de ajuste de escala automático | Es la ruta de acceso al ID de la política de escalado automático o al URI del recurso. Si deseas obtener información para configurar y usar el ajuste de escala automático de Managed Service for Apache Spark para cambiar el tamaño de los clústeres de forma automática y dinámica según las demandas de carga de trabajo, consulta Cuándo usar el ajuste de escala automático y Ajusta la escala de los clústeres de Managed Service for Apache Spark automáticamente. |
| Metadatos | Son metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargo. Para obtener más información, consulta Metadatos del clúster. |
| Etiquetas de red | Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número. |
| Habilita el inicio seguro | Habilita el inicio seguro en las VMs del servicio administrado para Apache Spark. El valor predeterminado es False. |
| Habilitar vTPM | Habilita el módulo de plataforma segura virtual (vTPM) en las VMs de Managed Service for Apache Spark. El valor predeterminado es False. |
| Habilita la supervisión de integridad | Habilita la supervisión de integridad virtual en las VMs del servicio administrado para Apache Spark. El valor predeterminado es False. |
| Versión de la imagen | Es la versión de la imagen del servicio administrado para Apache Spark. Si se deja en blanco, se seleccionará una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignorará. |
| URI de imagen personalizada | Es el URI de la imagen del servicio administrado para Apache Spark. Si se deja en blanco, se infiere a partir de la propiedad Versión de la imagen. |
| Bucket de etapa de pruebas | Bucket de Cloud Storage que se usa para almacenar en etapa intermedia las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Managed Service for Apache Spark. |
| Bucket temporal | Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Managed Service for Apache Spark. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion. |
| Nombre de clave de encriptación | Es la clave de encriptación administrada por el cliente (CMEK) que usa el Servicio administrado para Apache Spark. |
| Alcances de OAuth | Los permisos de OAuth 2.0 que tal vez debas solicitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Google Cloud Platform Scope siempre se incluye. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion. |
| Acciones de inicialización | Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage. |
| Propiedades del clúster | Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster. |
| Etiquetas comunes | Son etiquetas para organizar los clústeres y los trabajos de Managed Service para Apache Spark que se están creando. Puedes etiquetar cada recurso y, luego, filtrarlos por etiquetas. La información sobre las etiquetas se reenvía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación por etiqueta. |
| Tiempo máx. de inactividad | Configura Managed Service for Apache Spark para que borre un clúster si está inactivo durante más tiempo que la cantidad de minutos especificada. Por lo general, los clústeres se borran inmediatamente después de que finaliza una ejecución, pero, en situaciones excepcionales, la eliminación puede fallar. Para obtener más información, consulta Soluciona problemas relacionados con la eliminación de clústeres. El valor predeterminado es 30 minutos. |
| Omitir el borrado del clúster | Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar los clústeres de forma manual. Esto solo debe usarse cuando se depure una ejecución fallida. El valor predeterminado es False. |
| Habilita la integración de Stackdriver Logging | Habilita la integración de Stackdriver Logging. El valor predeterminado es True. |
| Habilita la integración de Stackdriver Monitoring | Habilita la integración de Stackdriver Monitoring. El valor predeterminado es True. |
| Habilita la puerta de enlace de componentes | Habilita la puerta de enlace del componente para acceder a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer. El valor predeterminado es False. |
| Preferir IP externa | Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, normalmente usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True. El valor predeterminado es False. |
| Retraso en la creación de la encuesta | Cantidad de segundos que se espera después de crear un clúster para comenzar a sondear y ver si se creó el clúster. El valor predeterminado es 60 segundos. La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y eliminan clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, es posible que quieras cambiar estos parámetros de configuración. |
| Crea una variación en la encuesta | Cantidad máxima de fluctuación aleatoria, en segundos, que se agregará a la demora cuando se cree un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tienes muchas canalizaciones programadas para ejecutarse exactamente al mismo tiempo. El valor predeterminado es 20 segundos. |
| Demora en el borrado de la encuesta | Cantidad de segundos que se deben esperar después de borrar un clúster para comenzar a sondear y ver si se borró. El valor predeterminado es 30 segundos. |
| Intervalo de sondeo | Cantidad de segundos que se espera entre las verificaciones del estado del clúster. El valor predeterminado es 2. |
Propiedades de la interfaz web del perfil de Managed Service para Apache Spark asignadas a propiedades JSON
| Nombre de la propiedad de la IU del perfil de Managed Service para Apache Spark | Nombre de la propiedad JSON del perfil de Managed Service for Apache Spark |
|---|---|
| Etiqueta de perfil | name |
| Nombre del perfil | label |
| Descripción | description |
| ID del proyecto | projectId |
| Clave de la cuenta de servicio del creador | accountKey |
| Región | region |
| Zona | zone |
| Red | network |
| ID del proyecto host de la red | networkHostProjectId |
| Subred | subnet |
| Cuenta de servicio del Runner | serviceAccount |
| Cantidad de copias maestras | masterNumNodes |
| Tipo de máquina principal | masterMachineType |
| Núcleos principales | masterCPUs |
| Memoria principal (GB) | masterMemoryMB |
| Tamaño del disco principal (GB) | masterDiskGB |
| Tipo de disco principal | masterDiskType |
| Cantidad de trabajadores principales | workerNumNodes |
| Cantidad de trabajadores secundarios | secondaryWorkerNumNodes |
| Tipo de máquina de trabajador | workerMachineType |
| Núcleos de trabajadores | workerCPUs |
| Memoria del trabajador (GB) | workerMemoryMB |
| Tamaño del disco del trabajador (GB) | workerDiskGB |
| Tipo de disco del trabajador | workerDiskType |
| Metadatos | clusterMetaData |
| Etiquetas de red | networkTags |
| Habilita el inicio seguro | secureBootEnabled |
| Habilitar vTPM | vTpmEnabled |
| Habilita la supervisión de integridad | integrityMonitoringEnabled |
| Versión de la imagen | imageVersion |
| URI de imagen personalizada | customImageUri |
| Bucket de Cloud Storage | gcsBucket |
| Nombre de clave de encriptación | encryptionKeyName |
| Política de ajuste de escala automático | autoScalingPolicy |
| Acciones de inicialización | initActions |
| Propiedades del clúster | clusterProperties |
| Etiquetas | clusterLabels |
| Tiempo máx. de inactividad | idleTTL |
| Omitir el borrado del clúster | skipDelete |
| Habilita la integración de Stackdriver Logging | stackdriverLoggingEnabled |
| Habilita la integración de Stackdriver Monitoring | stackdriverMonitoringEnabled |
| Habilita la puerta de enlace de componentes | componentGatewayEnabled |
| Preferir IP externa | preferExternalIP |
| Retraso en la creación de la encuesta | pollCreateDelay |
| Crea una variación en la encuesta | pollCreateJitter |
| Demora en el borrado de la encuesta | pollDeleteDelay |
| Intervalo de sondeo | pollInterval |
Prácticas recomendadas
Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas para la configuración de clústeres.
¿Qué sigue?
- Obtén más información para administrar perfiles de procesamiento.