Dataproc on GKE-Rollen und ‑Identitäten für die Identitäts- und Zugriffsverwaltung

Identität der Datenebene

Dataproc in GKE verwendet die GKE-Arbeitslastidentität , damit Pods im Dataproc in GKE-Cluster mit der Berechtigung des standardmäßigen Dataproc-VM-Dienstkontos (Identität der Datenebene) agieren können. Für die Arbeitslastidentität sind die folgenden Berechtigungen erforderlich, um IAM-Richtlinien für das GSA zu aktualisieren, das von Ihrem virtuellen Dataproc in GKE Cluster verwendet wird:

compute.projects.get
iam.serviceAccounts.getIamPolicy
iam.serviceAccounts.setIamPolicy

Die GKE-Arbeitslastidentität verknüpft die folgenden GKE-Dienstkonten (KSAs) mit dem Dataproc-VM-Dienstkonto:

agent KSA (interagiert mit der Dataproc-Steuerungsebene):
serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/agent]
spark-driver KSA (führt Spark-Treiber aus):
serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-driver]
spark-executor KSA (führt Spark-Executors aus):
serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-executor]

Verwenden Sie das gcloud dataproc clusters gke create --setup-workload-identity Flag wenn Sie einen Dataproc in GKE-Cluster erstellen um die für den Cluster erforderlichen Bindungen für die Arbeitslastidentität zu erstellen.

Rollen zuweisen

Gewähren Sie dem Dataproc-VM-Dienstkonto Berechtigungen, damit spark-driver und spark-executor auf Projektressourcen, Datenquellen, Datensenken und alle anderen Dienste zugreifen können, die für Ihre Arbeitslast erforderlich sind.

Beispiel:

Mit dem folgenden Befehl werden dem standardmäßigen Dataproc-VM-Dienstkonto Rollen zugewiesen, damit Spark-Arbeitslasten, die auf Dataproc in GKE-Cluster-VMs ausgeführt werden, auf Cloud Storage-Buckets und BigQuery-Datasets im Projekt zugreifen können.

gcloud projects add-iam-policy-binding \
    --role=roles/storage.objectAdmin \
    --role=roles/bigquery.dataEditor \
    --member="project-number-compute@developer.gserviceaccount.com" \
    "${PROJECT}"

Benutzerdefinierte IAM-Konfiguration

Dataproc in GKE verwendet die GKE-Arbeitslastidentität , um das standardmäßige Dataproc-VM-Dienstkonto (Identität der Datenebene) mit den drei GKE-Dienstkonten (KSAs) zu verknüpfen.

So erstellen und verwenden Sie ein anderes Google-Dienstkonto (GSA), das mit den KSAs verknüpft werden soll:

Erstellen Sie das GSA (siehe Dienstkonten erstellen und verwalten).

Beispiel für die gcloud CLI:
```
gcloud iam service-accounts create "dataproc-${USER}" \
    --description "Used by Dataproc on GKE workloads."
```
Hinweise:
- Im Beispiel wird der GSA-Name auf „dataproc-${USER}“ festgelegt. Sie können aber auch einen anderen Namen verwenden.
Legen Sie Umgebungsvariablen fest:
```
PROJECT=project-id \
  DPGKE_GSA="dataproc-${USER}@${PROJECT}.iam.gserviceaccount.com"
  DPGKE_NAMESPACE=GKE namespace
```
Hinweise:
- DPGKE_GSA: In den Beispielen wird DPGKE_GSA als Name der Variablen festgelegt und verwendet, die die E-Mail-Adresse Ihres GSA enthält. Sie können einen anderen Variablennamen festlegen und verwenden.
- DPGKE_NAMESPACE: Der Standard- GKE-Namespace ist der Name Ihres Dataproc in GKE-Clusters.

Wenn Sie den Dataproc in GKE-Cluster erstellen, fügen Sie die folgenden Eigenschaften hinzu, damit Dataproc Ihr GSA anstelle des Standard-GSA verwendet:

--properties "dataproc:dataproc.gke.agent.google-service-account=${DPGKE_GSA}" \
--properties "dataproc:dataproc.gke.spark.driver.google-service-account=${DPGKE_GSA}" \
--properties "dataproc:dataproc.gke.spark.executor.google-service-account=${DPGKE_GSA}" \

Führen Sie die folgenden Befehle aus, um den Dienstkonten die erforderlichen Berechtigungen für die Arbeitslastidentität zuzuweisen:

Weisen Sie Ihrem GSA die Rolle dataproc.worker zu, damit es als Agent fungieren kann:

gcloud projects add-iam-policy-binding \
    --role=roles/dataproc.worker \
    --member="serviceAccount:${DPGKE_GSA}" \
    "${PROJECT}"

Weisen Sie dem agent KSA die Rolle iam.workloadIdentityUser zu, damit es als Ihr GSA fungieren kann:

gcloud iam service-accounts add-iam-policy-binding \
    --role=roles/iam.workloadIdentityUser \
    --member="serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/agent]" \
    "${DPGKE_GSA}"

Weisen Sie dem spark-driver-KSA die Rolle iam.workloadIdentityUser zu, damit es als Ihr GSA fungieren kann:

gcloud iam service-accounts add-iam-policy-binding \
    --role=roles/iam.workloadIdentityUser \
    --member="serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-driver]" \
    "${DPGKE_GSA}"

Weisen Sie dem spark-executor-KSA die Rolle iam.workloadIdentityUser zu, damit es als Ihr GSA fungieren kann:

gcloud iam service-accounts add-iam-policy-binding \
    --role=roles/iam.workloadIdentityUser \
    --member="serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-executor]" \
    "${DPGKE_GSA}"

Dataproc on GKE-Rollen und ‑Identitäten für die Identitäts- und Zugriffsverwaltung Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Identität der Datenebene

Rollen zuweisen

Benutzerdefinierte IAM-Konfiguration

Dataproc on GKE-Rollen und ‑Identitäten für die Identitäts- und Zugriffsverwaltung