"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Entità servizio gestito per Apache Spark

Quando utilizzi Managed Service for Apache Spark per creare cluster ed eseguire job sui cluster, il servizio configura i ruoli e le autorizzazioni di Managed Service for Apache Spark necessari nel tuo progetto per accedere e utilizzare le risorse Google Cloud necessarie per svolgere queste attività. Tuttavia, se lavori su più progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.

Per aiutarti a svolgere correttamente il lavoro tra progetti, questo documento elenca i diversi principal che utilizzano Managed Service for Apache Spark e i ruoli che contengono le autorizzazioni necessarie per consentire a questi principal di accedere e utilizzare le risorse Google Cloud .

Esistono tre entità (identità) che accedono e utilizzano Managed Service for Apache Spark:

Identità utente
Identità del control plane
Identità del piano dati

Utente API Dataproc (identità utente)

Esempio: username@example.com

Questo è l'utente che chiama Managed Service for Apache Spark per creare cluster, inviare job e fare altre richieste al servizio. L'utente è in genere una persona, ma può anche essere un service account se Managed Service for Apache Spark viene richiamato tramite un client API o da un altro servizioGoogle Cloud come Compute Engine, Cloud Run Functions o Managed Service for Apache Airflow.

Ruoli correlati

Ruoli Dataproc, Ruoli del progetto

Note

I job inviati tramite l'API Dataproc vengono eseguiti come root su Linux.
I cluster Managed Service for Apache Spark ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non vengano bloccati esplicitamente impostando --metadata=block-project-ssh-keys=true durante la creazione del cluster (vedi Metadati del cluster).
Le directory utente HDFS vengono create per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (post-deployment) non viene assegnata una directory HDFS sui cluster esistenti.

Agente di servizio Managed Service for Apache Spark (identità del control plane)

Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Il service account agente di servizio Managed Service for Apache Spark viene utilizzato per eseguire un ampio insieme di operazioni di sistema sulle risorse che si trovano nel progetto in cui viene creato un cluster Managed Service for Apache Spark, tra cui:

Creazione di risorse Compute Engine, tra cui istanze VM, gruppi di istanze e modelli di istanza
Operazioni get e list per confermare la configurazione di risorse come immagini, firewall, azioni di inizializzazione di Managed Service for Apache Spark e bucket Cloud Storage
Creazione automatica dei bucket temporanei e di gestione temporanea di Managed Service for Apache Spark se il bucket gestione temporanea o di gestione temporanea non è specificato dall'utente
Scrittura dei metadati di configurazione del cluster nel bucket di gestione temporanea
Accesso alle reti VPC in un progetto host

Ruoli correlati

Dataproc Service Agent

Account di servizio VM Managed Service for Apache Spark (identità del piano dati)

Esempio: project-number-compute@developer.gserviceaccount.com

Il codice dell'applicazione viene eseguito come service account VM sulle VM Managed Service for Apache Spark. Ai job utente vengono concessi i ruoli (con le relative autorizzazioni) di questo account di servizio.

Il account di servizio VM esegue le seguenti operazioni:

Comunica con il piano di controllo di Managed Service for Apache Spark.
Legge e scrive dati da e nei bucket temporanei e di gestione temporanea di Managed Service for Apache Spark.
In base alle esigenze dei job Managed Service for Apache Spark, legge e scrive dati da e verso Cloud Storage, BigQuery, Cloud Logging e altre risorse Google Cloud .

Ruoli correlati

Passaggi successivi

Scopri di più sui ruoli e sulle autorizzazioni di Managed Service for Apache Spark.
Scopri di più sui service account di Managed Service for Apache Spark.
Consulta la sezione Controllo dell'accesso a BigQuery.
Consulta le opzioni di controllo dell'accesso di Cloud Storage.

Entità servizio gestito per Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Utente API Dataproc (identità utente)

Agente di servizio Managed Service for Apache Spark (identità del control plane)

Account di servizio VM Managed Service for Apache Spark (identità del piano dati)

Passaggi successivi

Entità servizio gestito per Apache Spark