Quando utilizzi Managed Service for Apache Spark per creare cluster ed eseguire job sui cluster, il servizio configura i ruoli e le autorizzazioni di Managed Service for Apache Spark necessari nel tuo progetto per accedere e utilizzare le Google Cloud risorse di cui ha bisogno per svolgere queste attività. Tuttavia, se esegui attività tra progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.
Per aiutarti a svolgere correttamente le attività tra progetti, questo documento elenca i diversi principali che utilizzano Managed Service for Apache Spark e i ruoli che contengono le autorizzazioni necessarie per consentire a questi principali di accedere e utilizzare le Google Cloud risorse.
Esistono tre principali (identità) che accedono e utilizzano Managed Service for Apache Spark:
- Identità utente
- Identità del control plane
Identità del data plane

Utente API Dataproc (identità utente)
Esempio: username@example.com
Questo è l'utente che chiama Managed Service for Apache Spark per creare cluster, inviare job ed effettuare altre richieste al servizio. L'utente è in genere una persona, ma può anche essere un service account se Managed Service for Apache Spark viene richiamato tramite un client API o da un altro Google Cloud servizio come Compute Engine, Cloud Run Functions o Managed Service for Apache Airflow.
Ruoli correlati
Note
- I job inviati tramite l'API Dataproc vengono eseguiti come
rootsu Linux. I cluster Managed Service for Apache Spark ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non vengano bloccati esplicitamente impostando
--metadata=block-project-ssh-keys=truequando crei il cluster (vedi Metadati del cluster).Le directory utente HDFS vengono create per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (post-deployment) non viene assegnata una directory HDFS sui cluster esistenti.
Agente di servizio Managed Service for Apache Spark (identità del control plane)
Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com
Il service account dell'agente di servizio Managed Service for Apache Spark viene utilizzato per eseguire un'ampia gamma di operazioni di sistema sulle risorse che si trovano nel progetto in cui viene creato un cluster Managed Service for Apache Spark, tra cui:
- Creazione di risorse Compute Engine, tra cui istanze VM, gruppi di istanze e modelli di istanza
- Operazioni
getelistper confermare la configurazione di risorse come immagini, firewall, azioni di inizializzazione di Managed Service for Apache Spark e bucket Cloud Storage - Creazione automatica dei bucket temporanei e di staging di Managed Service for Apache Spark se l'utente non li specifica
- Scrittura dei metadati di configurazione del cluster nel bucket di staging
- Accesso alle reti VPC in un progetto host
Ruoli correlati
Account di servizio VM Managed Service for Apache Spark (identità del data plane)
Esempio: project-number-compute@developer.gserviceaccount.com
Il codice dell'applicazione viene eseguito come il service account VM sulle VM Managed Service for Apache Spark. Ai job utente vengono concessi i ruoli (con le autorizzazioni associate) di questo account di servizio.
Il account di servizio VM esegue le seguenti operazioni:
- Comunica con il control plane di Managed Service for Apache Spark.
- Legge e scrive dati da e nei bucket temporanei e di staging di Managed Service for Apache Spark.
- A seconda delle esigenze dei job Managed Service for Apache Spark, legge e scrive dati da e in Cloud Storage, BigQuery, Cloud Logging e altre Google Cloud risorse.
Ruoli correlati
Passaggi successivi
- Scopri di più sui ruoli e sulle autorizzazioni di Managed Service for Apache Spark.
- Scopri di più sui service account di Managed Service for Apache Spark.
- Consulta Controllo dell'accesso a BigQuery.
- Consulta Opzioni di controllo dell'accesso a Cloud Storage.