Dataproc-Dienstkonten

Auf dieser Seite werden Dienstkonten und VM-Zugriffsbereiche beschrieben und wie sie mit Dataproc verwendet werden.

Sicherheitsanforderung ab dem 3. August 2020: Dataproc-Nutzer müssen die Berechtigung ActAs für das Dienstkonto haben, um Dataproc-Ressourcen bereitzustellen, z. B. Cluster zu erstellen und Jobs zu senden. Die Rolle Dienstkontonutzer enthält diese Berechtigung. Informationen zu den erforderlichen Dataproc-Rollen finden Sie unter Rollen für die Dienstkontoauthentifizierung.

Aktivierung für bestehende Dataproc-Nutzer : Bestehende Dataproc-Nutzer können ab dem 3. August 2020 diese Sicherheitsanforderung aktivieren (siehe Dataproc, Dataflow und Cloud Data Fusion sichern).

Was sind Dienstkonten?

Ein Dienstkonto ist ein spezielles Konto, das von Diensten und Anwendungen, die auf einer Compute Engine VM-Instanz (virtuelle Maschine) ausgeführt werden, für die Interaktion mit anderen Google Cloud APIs verwendet werden kann. Anwendungen können Dienstkonto-Anmeldedaten nutzen, um sich für verschiedene APIs zu autorisieren und im Rahmen der dem Dienstkonto gewährten Berechtigungen Aktionen auf der VM auszuführen.

Dienstkonten für Dataproc-Cluster

Die folgenden Dienstkonten müssen die erforderlichen Berechtigungen haben, um Dataproc-Aktionen in dem Projekt auszuführen, in dem sich Ihr Cluster befindet.

Dataproc-VM-Dienstkonto

Die VMs in einem Dataproc-Cluster verwenden ein Dienstkonto für Dataproc Datenebenenvorgänge. Das Compute Engine-Standarddienstkonto project_number-compute@developer.gserviceaccount.com wird als VM-Dienstkonto verwendet, sofern Sie beim Erstellen eines Clusters kein benutzerdefiniertes Dienstkonto angeben. Das VM-Dienstkonto muss die Dataproc-Worker Rolle haben, die die für Dataproc-Datenebenenvorgänge erforderlichen Berechtigungen enthält. Weitere Informationen finden Sie unter Dataproc-Rollen.

Rollen des VM-Dienstkontos ansehen

So sehen Sie die Rollen, die dem Dataproc-VM-Dienstkonto zugewiesen sind:

  1. Rufen Sie in der Google Cloud Console die Seite IAM auf.

    IAM aufrufen

  2. Klicken Sie auf Von Google bereitgestellte Rollenzuweisungen einschließen.

  3. Sehen Sie sich die Rollen an, die für das VM-Dienstkonto aufgeführt sind. Die folgende Abbildung zeigt die erforderliche Dataproc-Worker Rolle für das Compute Engine-Standarddienstkonto (project_number-compute@developer.gserviceaccount.com) das Dataproc standardmäßig als VM-Dienstkonto verwendet.

  4. Sie können auf das Stiftsymbol in der Dienstkontenzeile klicken, um Dienstkontorollen zuzuweisen oder zu entfernen.

Dienstkonto des Dataproc-Dienst-Agents

Dataproc creates the Dienstkonto des Dienst-Agents, service-project_number@dataproc-accounts.iam.gserviceaccount.com, and grants the service account the Dataproc Service Agent role in a Google Cloud project. Dieses Dienstkonto führt Dataproc-Steuerungsebenenvorgänge aus, z. B. das Erstellen, Aktualisieren und Löschen von Cluster-VMs. Sie können dieses Dienstkonto beim Erstellen eines Clusters nicht durch ein benutzerdefiniertes VM-Dienst konto ersetzen.

Rollenzuweisung für das Dienstkonto des Dienst-Agents in einem freigegebenen VPC-Netzwerk

Wenn ein Dataproc-Cluster ein freigegebenes VPC-Netzwerk verwendet, muss ein Administrator für freigegebene VPCs dem Dienstkonto des Dataproc-Dienst-Agents die Rolle des Netzwerknutzers für das Hostprojekt der freigegebenen VPC zuweisen. Hier finden Sie weitere Informationen:

Cluster mit einem benutzerdefinierten VM-Dienstkonto erstellen

Wenn Sie einen Cluster erstellen, können Sie ein benutzerdefiniertes VM-Dienstkonto angeben, das Ihr Cluster anstelle des Standard-VM-Dienstkontos für Dataproc-Datenebenenvorgänge verwendet. Das VM-Dienstkonto kann nach dem Erstellen des Clusters nicht mehr geändert werden. Wenn Sie ein VM-Dienstkonto mit zugewiesenen IAM-Rollen verwenden, können Sie Ihrem Cluster einen detaillierten Zugriff auf Projektressourcen gewähren.

Vorläufige Schritte

  1. Erstellen Sie das benutzerdefinierte VM-Dienstkonto in dem Projekt, in dem der Cluster erstellt wird.

  2. Weisen Sie dem benutzerdefinierten VM-Dienstkonto die Rolle „Dataproc-Worker“ für das Projekt und alle zusätzlichen Rollen zu, die für Ihre Jobs erforderlich sind, z. B. die Rollen „BigQuery-Leser und -Autor“ (siehe Dataproc-Rollen).

    Beispiel für die gcloud CLI:

    • Mit dem folgenden Beispielbefehl wird dem benutzerdefinierten VM-Dienstkonto im Clusterprojekt die Rolle „Dataproc-Worker“ auf Projektebene zugewiesen:
    gcloud projects add-iam-policy-binding CLUSTER_PROJECT_ID \
        --member=serviceAccount:SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com \
        --role="roles/dataproc.worker"
     
    • Benutzerdefinierte Rolle: Anstatt dem Dienstkonto die vordefinierte Rolle „Dataproc-Worker“ (roles/dataproc.worker) zuzuweisen, können Sie dem Dienstkonto eine benutzerdefinierte Rolle zuweisen, die Berechtigungen für die Rolle „Worker“ enthält, aber die Berechtigungen storage.objects.* einschränkt.
      • Die benutzerdefinierte Rolle muss dem VM-Dienstkonto mindestens die Berechtigungen storage.objects.create, storage.objects.get, und storage.objects.update für die Objekte in den Dataproc-Staging- und temporären Buckets sowie für alle zusätzlichen Buckets gewähren, die von Jobs benötigt werden, die auf dem Cluster ausgeführt werden.

Cluster erstellen

  • Erstellen Sie den Cluster in Ihrem Projekt.

gcloud-Befehl

Verwenden Sie den gcloud dataproc clusters create Befehl, um einen Cluster mit dem benutzerdefinierten VM-Dienstkonto zu erstellen.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --service-account=SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com \
    --scopes=SCOPE

Ersetzen Sie Folgendes:

  • CLUSTER_NAME: Der Clustername, der innerhalb eines Projekts eindeutig sein muss. Der Name muss mit einem Kleinbuchstaben beginnen und kann bis zu 51 Kleinbuchstaben Ziffern und Bindestriche enthalten. Er darf nicht mit einem Bindestrich enden. Der Name eines gelöschten Clusters kann wiederverwendet werden.
  • REGION: Die Region , in der sich der Cluster befindet.
  • SERVICE_ACCOUNT_NAME: Der Name des Dienstkontos.
  • PROJECT_ID: Die Google Cloud Projekt-ID des Projekts, das Ihr VM-Dienstkonto enthält. Dies ist die ID von dem Projekt, in dem Ihr Cluster erstellt wird, oder die ID eines anderen Projekts, wenn Sie einen Cluster mit einem benutzerdefinierten VM-Dienstkonto in einem anderen Projekt erstellen.
  • SCOPE: Zugriffsbereiche für Cluster-VM-Instanzen (z. B. https://www.googleapis.com/auth/cloud-platform).

REST API

Wenn Sie GceClusterConfig als Teil der clusters.create API-Anfrage ausfüllen, legen Sie die folgenden Felder fest:

Console

Das Festlegen eines Dataproc-VM-Dienstkontos in der Google Cloud Console wird nicht unterstützt. Sie können den cloud-platform Zugriffsbereich für Cluster VMs festlegen, wenn Sie den Cluster erstellen. Klicken Sie dazu in der Google Cloud Console auf der Dataproc Cluster erstellen Seite im Bereich Sicherheit verwalten im Abschnitt Projektzugriff auf "Aktiviert den Bereich „cloud-platform“ für diesen Cluster" .

Cluster mit einem benutzerdefinierten VM-Dienstkonto aus einem anderen Projekt erstellen

Wenn Sie einen Cluster erstellen, können Sie ein benutzerdefiniertes VM-Dienstkonto angeben, das Ihr Cluster anstelle des Standard-VM-Dienstkontos für Dataproc-Datenebenenvorgänge verwendet. Das VM-Dienstkonto kann nach dem Erstellen des Clusters nicht mehr geändert werden. Wenn Sie ein benutzerdefiniertes VM-Dienstkonto mit zugewiesenen IAM-Rollen verwenden, können Sie Ihrem Cluster einen detaillierten Zugriff auf Projektressourcen gewähren.

Vorläufige Schritte

  1. Im Dienstkontoprojekt (dem Projekt, in dem sich das benutzerdefinierte VM-Dienstkonto befindet):

    1. Ermöglichen Sie, dass Dienstkonten projektübergreifend angehängt werden können.

    2. Enable the Dataproc API.

      Roles required to enable APIs

      To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

      Enable the API

  2. Weisen Sie Ihrem E-Mail-Konto (dem Nutzer, der den Cluster erstellt) die Rolle „Dienstkontonutzer“ entweder für das Dienstkontoprojekt oder für eine detailliertere Steuerung für das benutzerdefinierte VM-Dienstkonto im Dienstkontoprojekt zu.

    Weitere Informationen: Siehe Zugriff auf Projekte, Ordner und Organisationen verwalten , um Rollen auf Projektebene zuzuweisen, und Zugriff auf Dienstkonten verwalten , um Rollen auf Dienstkontoebene zuzuweisen.

    Beispiele für die gcloud CLI :

    • Mit dem folgenden Beispielbefehl wird dem Nutzer die Rolle „Dienstkontonutzer“ auf Projektebene zugewiesen:
    gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
        --member=USER_EMAIL \
        --role="roles/iam.serviceAccountUser"
    

    Hinweise: USER_EMAIL: Geben Sie die E-Mail-Adresse Ihres Nutzerkontos im Format: user:user-name@example.com an.

    • Mit dem folgenden Beispielbefehl wird dem Nutzer die Rolle „Dienstkontonutzer“ auf Dienstkontoebene zugewiesen:
    gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
        --member=USER_EMAIL \
        --role="roles/iam.serviceAccountUser"
    

    Hinweise: USER_EMAIL: Geben Sie die E-Mail-Adresse Ihres Nutzerkontos im Format: user:user-name@example.com an.

  3. Weisen Sie dem benutzerdefinierten VM-Dienstkonto die Rolle „Dataproc-Worker“ für das Clusterprojekt zu.

    Beispiel für die gcloud CLI:

    gcloud projects add-iam-policy-binding CLUSTER_PROJECT_ID \
        --member=serviceAccount:SERVICE_ACCOUNT_NAME@SERVICE_ACCOUNT_PROJECT_ID.iam.gserviceaccount.com \
        --role="roles/dataproc.worker"
     
  4. Weisen Sie dem Dienstkonto des Dataproc-Dienst-Agents im Clusterprojekt die Rollen „Dienstkontonutzer“ und „Ersteller von Dienstkonto-Tokens“ entweder für das Dienstkontoprojekt oder für eine detailliertere Steuerung für das benutzerdefinierte VM-Dienstkonto im Dienstkontoprojekt zu. Dadurch kann das Dienstkonto des Dataproc-Dienst-Agents im Clusterprojekt Tokens für das benutzerdefinierte Dataproc-VM-Dienstkonto im Dienstkontoprojekt erstellen.

    Weitere Informationen: Siehe Zugriff auf Projekte, Ordner und Organisationen verwalten , um Rollen auf Projektebene zuzuweisen, und Zugriff auf Dienstkonten verwalten , um Rollen auf Dienstkontoebene zuzuweisen.

    Beispiele für die gcloud CLI :

    • Mit den folgenden Beispielbefehlen werden dem Dienstkonto des Dataproc-Dienst-Agents im Clusterprojekt die Rollen „Dienstkontonutzer“ und „Ersteller von Dienstkonto-Tokens“ auf Projektebene zugewiesen:
    gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
        --member=serviceAccount:service-CLUSTER_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
        --role="roles/iam.serviceAccountUser"
     
    gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
        --member=serviceAccount:service-CLUSTER_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
        --role="roles/iam.serviceAccountTokenCreator"
    
    • Mit den folgenden Beispielbefehlen werden dem Dienstkonto des Dataproc-Dienst-Agents im Clusterprojekt die Rollen „Dienstkontonutzer“ und „Ersteller von Dienstkonto-Tokens“ auf VM-Dienstkontoebene zugewiesen:
    gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
        --member=serviceAccount:service-CLUSTER_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
        --role="roles/iam.serviceAccountUser"
     
    gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
        --member=serviceAccount:service-CLUSTER_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
        --role="roles/iam.serviceAccountTokenCreator"
    
  5. Weisen Sie dem Dienstkonto des Compute Engine-Dienst-Agents im Clusterprojekt die Rolle „Ersteller von Dienstkonto-Tokens“ entweder für das Dienstkontoprojekt oder für eine detailliertere Steuerung für das benutzerdefinierte VM-Dienstkonto im Dienstkontoprojekt zu. Dadurch kann das Dienstkonto des Compute Engine-Dienst-Agents im Cluster projekt Tokens für das benutzerdefinierte Dataproc-VM-Dienst konto im Dienstkontoprojekt erstellen.

    Weitere Informationen: Siehe Zugriff auf Projekte, Ordner und Organisationen verwalten , um Rollen auf Projektebene zuzuweisen, und Zugriff auf Dienstkonten verwalten , um Rollen auf Dienstkontoebene zuzuweisen.

    Beispiele für die gcloud CLI :

    • Mit dem folgenden Beispielbefehl wird dem Dienstkonto des Compute Engine-Dienst-Agents im Clusterprojekt die Rolle „Ersteller von Dienstkonto-Tokens“ auf Projektebene zugewiesen:
    gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
        --member=serviceAccount:service-CLUSTER_PROJECT_NUMBER@compute-system.iam.gserviceaccount.com \
        --role="roles/iam.serviceAccountTokenCreator"
     
    • Mit dem folgenden Beispielbefehl wird dem Dienstkonto des Compute Engine-Dienst-Agents im Clusterprojekt die Rolle „Ersteller von Dienstkonto-Tokens“ auf VM-Dienstkontoebene zugewiesen:
    gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
        --member=serviceAccount:service-CLUSTER_PROJECT_NUMBER@compute-system.iam.gserviceaccount.com \
        --role="roles/iam.serviceAccountTokenCreator"
     

Cluster erstellen

Nächste Schritte