"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Principales de Managed Service para Apache Spark

Cuando usas Managed Service para Apache Spark para crear clústeres y ejecutar trabajos en ellos, el servicio configura los roles y permisos de Managed Service para Apache Spark necesarios en tu proyecto para acceder a los recursos de Google Cloud que necesita para realizar estas tareas y usarlos. Sin embargo, si realizas un trabajo entre proyectos, por ejemplo, para acceder a los datos de otro proyecto, deberás configurar las funciones y los permisos necesarios a fin de acceder a los recursos entre proyectos.

Para ayudarte a realizar el trabajo entre proyectos de manera correcta, en este documento se enumeran los diferentes principales que usan Managed Service para Apache Spark y los roles que contienen los permisos necesarios para que esos principales usen y accedan a los recursos de Google Cloud .

Existen tres principales (identidades) que acceden y usan Managed Service para Apache Spark:

Identidad de usuario
Identidad del plano de control
Identidad del plano de datos

Usuario de la API de Dataproc (identidad del usuario)

Ejemplo: nombredeusuario@example.com

Este es el usuario que llama a Managed Service para Apache Spark para crear clústeres, enviar trabajos y realizar otras solicitudes al servicio. El usuario suele ser un individuo, pero también puede ser una cuenta de servicio si se invoca a Managed Service para Apache Spark a través de un cliente de API o de otroGoogle Cloud servicio, como Compute Engine, Cloud Run Functions o Managed Service para Apache Airflow.

Funciones relacionadas

Funciones de Dataproc, funciones de proyecto

Notas

Los trabajos enviados por la API de Dataproc se ejecutan como root en Linux.
Los clústeres de Managed Service para Apache Spark heredan los metadatos SSH de Compute Engine en todo el proyecto, a menos que se bloqueen explícitamente mediante la configuración de --metadata=block-project-ssh-keys=true cuando creas el clúster (consulta metadatos de clústeres).
Los directorios de usuarios HDFS se crean para cada usuario SSH a nivel de proyecto. Estos directorios HDFS se crean en el momento de la implementación del clúster, y nuevo un usuario SSH (posterior a la implementación) no recibe un directorio HDFS en los clústeres existentes.

Agente del servicio de Managed Service para Apache Spark (identidad del plano de control)

Ejemplo: service-project-number@dataproc-accounts.iam.gserviceaccount.com

La cuenta de servicio del agente de servicio de Managed Service para Apache Spark se usa para realizar un amplio conjunto de operaciones del sistema en los recursos ubicados en el proyecto en el que se crea un clúster de Managed Service para Apache Spark, incluidas las siguientes:

Crear recursos de Compute Engine, que incluyen instancias de VM, grupos de instancias y plantillas de instancias
Operaciones get y list para confirmar la configuración de recursos como imágenes, firewalls, acciones de inicialización de Managed Service para Apache Spark y buckets de Cloud Storage
Crear de forma automática los buckets temporales y de etapa de pruebas de Managed Service para Apache Spark si el usuario no los especificó
Escribir metadatos de configuración de clústeres en el bucket de etapa de pruebas
Acceder a redes de VPC en un proyecto host

Funciones relacionadas

Agente de servicios de Dataproc

Cuenta de servicio de VM de Managed Service para Apache Spark (identidad del plano de datos)

Ejemplo: project-number-compute@developer.gserviceaccount.com

El código de la aplicación se ejecuta como la cuenta de servicio de VM en las VMs de Managed Service para Apache Spark. A los trabajos de usuario se les otorgan los roles (con sus permisos asociados) de esta cuenta de servicio.

La cuenta de servicio de la VM hace lo siguiente:

Se comunica con el plano de control de Managed Service para Apache Spark.
Lee y escribe datos desde y hacia los buckets temporales y de etapa de pruebas de Managed Service para Apache Spark.
Según sea necesario para tus trabajos de Managed Service para Apache Spark, lee y escribe datos desde y hacia Cloud Storage, BigQuery, Cloud Logging y otros recursos de Google Cloud .

Funciones relacionadas

¿Qué sigue?

Obtén más información sobre los roles y permisos de Managed Service para Apache Spark.
Obtén más información sobre las cuentas de servicio de Managed Service para Apache Spark.
Consulta Control de acceso a BigQuery.
Consulta las opciones de control de acceso de Cloud Storage.

Principales de Managed Service para Apache Spark Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Usuario de la API de Dataproc (identidad del usuario)

Agente del servicio de Managed Service para Apache Spark (identidad del plano de control)

Cuenta de servicio de VM de Managed Service para Apache Spark (identidad del plano de datos)

¿Qué sigue?

Principales de Managed Service para Apache Spark