Entità di servizio Dataproc

Quando utilizzi il servizio Dataproc per creare cluster ed eseguire job sui cluster, il servizio configura i ruoli e le autorizzazioni Dataproc necessari nel tuo progetto per accedere e utilizzare le Google Cloud risorse di cui ha bisogno per svolgere queste attività. Tuttavia, se esegui un lavoro tra progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.

Per aiutarti a svolgere correttamente il lavoro tra progetti, questo documento elenca i diversi principal che utilizzano il servizio Dataproc e i ruoli che contengono le autorizzazioni necessarie per consentire a questi principal di accedere e utilizzare Google Cloud le risorse.

Esistono tre principal (identità) che accedono e utilizzano Dataproc:

Identità utente
Identità del control plane
Identità del data plane

Utente API Dataproc (identità utente)

Esempio: username@example.com

Questo è l'utente che chiama il servizio Dataproc per creare cluster, inviare job ed effettuare altre richieste al servizio. L'utente è in genere una persona, ma può anche essere un service account se Dataproc viene richiamato tramite un client API o da un altro Google Cloud servizio come Compute Engine, Cloud Run Functions o Cloud Composer.

Ruoli correlati

Ruoli Dataproc, ruoli del progetto

Note

I job inviati tramite l'API Dataproc vengono eseguiti come root su Linux.
I cluster Dataproc ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non vengano bloccati esplicitamente impostando --metadata=block-project-ssh-keys=true quando crei il cluster (vedi Metadati del cluster).
Le directory utente HDFS vengono create per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (post-deployment) non viene assegnata una directory HDFS sui cluster esistenti.

Agente di servizio Dataproc (identità del control plane)

Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Il service account dell'agente di servizio Dataproc viene utilizzato per eseguire un'ampia gamma di operazioni di sistema sulle risorse che si trovano nel progetto in cui viene creato un cluster Dataproc, tra cui:

Creazione di risorse Compute Engine, tra cui istanze VM, gruppi di istanze e modelli di istanza
Operazioni get e list per confermare la configurazione di risorse come immagini, firewall, azioni di inizializzazione di Dataproc e bucket Cloud Storage
Creazione automatica dei bucket temporanei e di gestione temporanea di Dataproc se l'utente non specifica il bucket temporaneo o di gestione temporanea
Scrittura dei metadati di configurazione del cluster nel bucket temporaneo
Accesso alle reti VPC in un progetto host

Ruoli correlati

Agente di servizio Dataproc

Service account VM Dataproc (identità del data plane)

Esempio: project-number-compute@developer.gserviceaccount.com

Il codice dell'applicazione viene eseguito come il service account VM sulle VM Dataproc. Ai job utente vengono concessi i ruoli (con le loro autorizzazioni associate) di questo service account.

Il service account VM esegue le seguenti operazioni:

Comunica con il control plane Dataproc.
Legge e scrive dati da e verso i bucket temporanei e di gestione temporanea di Dataproc.
Se necessario per i job Dataproc, legge e scrive dati da e verso Cloud Storage, BigQuery, Cloud Logging e altre Google Cloud risorse.

Ruoli correlati

Passaggi successivi

Scopri di più sui ruoli e sulle autorizzazioni di Dataproc.
Scopri di più sui service account Dataproc.
Consulta Controllo dell'accesso a BigQuery.
Consulta Opzioni di controllo dell'accesso a Cloud Storage.

Entità di servizio Dataproc Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Utente API Dataproc (identità utente)

Agente di servizio Dataproc (identità del control plane)

Service account VM Dataproc (identità del data plane)

Passaggi successivi

Entità di servizio Dataproc