Entità servizio gestito per Apache Spark

Quando utilizzi Managed Service per Apache Spark per creare cluster ed eseguire job sui cluster, il servizio configura i ruoli e le autorizzazioni necessari di Managed Service per Apache Spark nel tuo progetto per accedere e utilizzare le Google Cloud risorse di cui ha bisogno per svolgere queste attività. Tuttavia, se esegui un lavoro tra progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.

Per aiutarti a svolgere correttamente il lavoro tra progetti, questo documento elenca le diverse entità che utilizzano Managed Service per Apache Spark e i ruoli che contengono le autorizzazioni necessarie per consentire a queste entità di accedere e utilizzare Google Cloud le risorse.

Esistono tre entità (identità) che accedono e utilizzano Managed Service per Apache Spark:

  1. Identità utente
  2. Identità del control plane
  3. Identità del data plane

    dataproc-service-accounts1

Utente API Dataproc (identità utente)

Esempio: username@example.com

Questo è l'utente che chiama Managed Service per Apache Spark per creare cluster, inviare job ed effettuare altre richieste al servizio. L'utente è in genere una persona, ma può anche essere un account di servizio se Managed Service per Apache Spark viene richiamato tramite un client API o da un altro Google Cloud servizio come Compute Engine, Cloud Run Functions o Cloud Composer.

Ruoli correlati

Note

  • I job inviati tramite l'API Dataproc vengono eseguiti come root su Linux.
  • I cluster Managed Service per Apache Spark ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non vengano bloccati esplicitamente impostando --metadata=block-project-ssh-keys=true quando crei il cluster (vedi Metadati del cluster).

  • Le directory utente HDFS vengono create per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (post-deployment) non viene assegnata una directory HDFS sui cluster esistenti.

Agente di servizio Managed Service per Apache Spark (identità del control plane)

Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com

L' account di servizio dell'agente di servizio Managed Service per Apache Spark viene utilizzato per eseguire un'ampia gamma di operazioni di sistema sulle risorse che si trovano nel progetto in cui viene creato un cluster Managed Service per Apache Spark, tra cui:

  • Creazione di risorse Compute Engine, tra cui istanze VM, gruppi di istanze e modelli di istanza
  • Operazioni get e list per confermare la configurazione di risorse come immagini, firewall, azioni di inizializzazione di Managed Service per Apache Spark e bucket Cloud Storage
  • Creazione automatica dei bucket di gestione temporanea e temporanei di Managed Service per Apache Spark se l'utente non li specifica
  • Scrittura dei metadati di configurazione del cluster nel bucket di gestione temporanea
  • Accesso alle reti VPC in un progetto host

Ruoli correlati

Account di servizio VM Managed Service per Apache Spark (identità del data plane)

Esempio: project-number-compute@developer.gserviceaccount.com

Il codice dell'applicazione viene eseguito come l' account di servizio VM sulle VM Managed Service per Apache Spark. Ai job utente vengono concessi i ruoli (con le relative autorizzazioni) di questo account di servizio.

L'account di servizio VM esegue le seguenti operazioni:

Ruoli correlati

Passaggi successivi