Auf dieser Seite wird beschrieben, wie Sie die Zugriffssteuerung beim Bereitstellen und Ausführen einer Pipeline verwalten, die Managed Service for Apache Spark-Cluster in einem anderen Google Cloud Projekt verwendet.
Szenario
Wenn eine Cloud Data Fusion-Instanz in einem Google Cloud Projekt gestartet wird, werden standardmäßig Pipelines mit Managed Service for Apache Spark-Clustern im selben Projekt bereitgestellt und ausgeführt. Ihre Organisation erfordert jedoch möglicherweise, dass Sie Cluster in einem anderen Projekt verwenden. In diesem Anwendungsfall müssen Sie den Zugriff zwischen den Projekten verwalten. Auf der folgenden Seite wird beschrieben, wie Sie die Referenzkonfigurationen (Standardkonfigurationen) ändern und die entsprechenden Zugriffssteuerungen anwenden können.
Hinweis
Um die Lösungen in diesem Anwendungsfall zu verstehen, benötigen Sie den folgenden Kontext:
- Grundlegende Kenntnisse der Cloud Data Fusion-Konzepte
- Grundlegende Kenntnisse der Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) für Cloud Data Fusion
- Grundlegende Kenntnisse der Cloud Data Fusion-Netzwerke
Annahmen und Umfang
Dieser Anwendungsfall hat folgende Anforderungen:
- Eine private Cloud Data Fusion-Instanz. Aus Sicherheitsgründen kann eine Organisation die Verwendung dieser Art von Instanz erfordern.
- Eine BigQuery-Quelle und -Senke.
- Zugriffssteuerung mit IAM, nicht rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC).
Lösung
In dieser Lösung werden die Referenzkonfiguration und die anwendungsfallspezifische Architektur und Konfiguration verglichen.
Architektur
In den folgenden Diagrammen wird die Projektarchitektur zum Erstellen einer Cloud Data Fusion-Instanz und zum Ausführen von Pipelines verglichen, wenn Sie Cluster im selben Projekt (Referenzkonfiguration) und in einem anderen Projekt über die VPC des Mandantenprojekts verwenden.
Referenzarchitektur
Dieses Diagramm zeigt die Referenzarchitektur der Projekte:

Für die Referenzkonfiguration erstellen Sie eine private Cloud Data Fusion-Instanz und führen eine Pipeline ohne zusätzliche Anpassung aus:
- Sie verwenden eines der integrierten Rechenprofile.
- Die Quelle und die Senke befinden sich im selben Projekt wie die Instanz.
- Keinem der Dienstkonten wurden zusätzliche Rollen zugewiesen.
Weitere Informationen zu Mandanten- und Kundenprojekten finden Sie unter Netzwerke.
Architektur des Anwendungsfalls
Dieses Diagramm zeigt die Projektarchitektur, wenn Sie Cluster in einem anderen Projekt verwenden:

Konfigurationen
In den folgenden Abschnitten werden die Referenzkonfigurationen mit den anwendungsfallspezifischen Konfigurationen für die Verwendung von Managed Service for Apache Spark-Clustern in einem anderen Projekt über die Standard-VPC des Mandantenprojekts verglichen.
In den folgenden Anwendungsfallbeschreibungen ist das Kundenprojekt das Projekt, in dem die Cloud Data Fusion-Instanz ausgeführt wird, und das Managed Service for Apache Spark-Projekt das Projekt, in dem der Managed Service for Apache Spark-Cluster gestartet wird.
VPC und Instanz des Mandantenprojekts
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Im vorherigen Diagramm der Referenzarchitektur enthält das Mandantenprojekt
die folgenden Komponenten:
|
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Kundenprojekt
| Referenzkonfiguration | Anwendungsfall |
|---|---|
| In Ihrem Google Cloud Projekt werden Pipelines bereitgestellt und ausgeführt. Standardmäßig werden die Managed Service for Apache Spark-Cluster in diesem Projekt gestartet, wenn Sie Ihre Pipelines ausführen. | In diesem Anwendungsfall verwalten Sie zwei Projekte. Auf dieser Seite bezieht sich das
Kundenprojekt auf das Projekt, in dem die Cloud Data Fusion
Instanz ausgeführt wird. Das Managed Service for Apache Spark-Projekt bezieht sich auf das Projekt, in dem die Managed Service for Apache Spark-Cluster gestartet werden. |
VPC des Kunden
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Aus Kundensicht befindet sich Cloud Data Fusion logisch in der VPC des Kunden. Wichtig: Details zur VPC des Kunden finden Sie auf der Seite VPC-Netzwerke Ihres Projekts. |
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Cloud Data Fusion-Subnetz
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Aus Kundensicht befindet sich Cloud Data Fusion logisch in diesem Subnetz. Wichtig: Die Region dieses Subnetzes ist dieselbe wie der Standort der Cloud Data Fusion-Instanz im Mandanten projekt. |
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Managed Service for Apache Spark-Subnetz
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Das Subnetz, in dem Managed Service for Apache Spark-Cluster gestartet werden, wenn Sie eine Pipeline ausführen. Wichtig:
|
Dies ist ein neues Subnetz, in dem Managed Service for Apache Spark-Cluster gestartet werden, wenn Sie eine Pipeline ausführen. Wichtig:
|
Quellen und Senken
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Die Quellen, aus denen Daten extrahiert werden, und die Senken, in die Daten geladen werden, z. B. BigQuery-Quellen und -Senken. Wichtig:
|
Die anwendungsfallspezifischen Konfigurationen für die Zugriffssteuerung auf dieser Seite gelten für BigQuery-Quellen und -Senken. |
Cloud Storage
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Der Storage-Bucket im Kundenprojekt, mit dem Dateien zwischen Cloud Data Fusion und Managed Service for Apache Spark übertragen werden. Wichtig:
|
Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
Temporäre Buckets, die von Quelle und Senke verwendet werden
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Die temporären Buckets, die von Plug-ins für Ihre Quellen und Senken erstellt wurden, z. B. die von dem BigQuery-Senken-Plug-in initiierten Ladejobs. Wichtig:
|
In diesem Anwendungsfall kann der Bucket in einem beliebigen Projekt erstellt werden. |
Buckets, die Quellen oder Senken von Daten für Plug-ins sind
| Referenzkonfiguration | Anwendungsfall |
|---|---|
| Kunden-Buckets, die Sie in den Konfigurationen für Plug-ins angeben, z. B. das Cloud Storage-Plug-in und das FTP zu Cloud Storage-Plug-in. | Für diesen Anwendungsfall ist keine zusätzliche Konfiguration erforderlich. |
IAM: Cloud Data Fusion API Service Agent
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Wenn die Cloud Data Fusion API aktiviert ist, wird dem
Cloud Data Fusion-Dienstkonto, dem primären Dienst-Agenten, automatisch die Rolle
Cloud
Data Fusion API Service Agent
( Wichtig:
|
Weisen Sie in diesem Anwendungsfall dem Dienstkonto im Managed Service for Apache Spark-Projekt die Rolle „Cloud Data Fusion API Service Agent“ zu. Weisen Sie dann die folgenden Rollen in diesem Projekt zu:
|
IAM: Managed Service for Apache Spark-Dienstkonto
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Das Dienstkonto, das zum Ausführen der Pipeline als Job im Managed Service for Apache Spark-Cluster verwendet wird. Standardmäßig ist es das Compute Engine-Dienstkonto. Optional: In der Referenzkonfiguration können Sie das Standard Dienstkonto in ein anderes Dienstkonto aus demselben Projekt ändern. Weisen Sie dem neuen Dienstkonto die folgenden IAM-Rollen zu:
|
In diesem Anwendungsfall wird davon ausgegangen, dass Sie das Standard
Compute Engine-Dienstkonto ( Weisen Sie dem Compute Engine-Standarddienstkonto im Managed Service for Apache Spark-Projekt die folgenden Rollen zu.
Weisen Sie dem Cloud Data Fusion Dienstkonto die Rolle „Dienstkontonutzer“ für das Compute Engine-Standarddienstkonto des Managed Service for Apache Spark-Projekts zu. Diese Aktion muss im Managed Service for Apache Spark-Projekt ausgeführt werden. Fügen Sie das Compute Engine-Standarddienstkonto des Managed Service for Apache Spark-Projekts dem Cloud Data Fusion-Projekt hinzu. Weisen Sie außerdem die folgenden Rollen zu:
|
APIs
| Referenzkonfiguration | Anwendungsfall |
|---|---|
Wenn Sie die Cloud Data Fusion API aktivieren, werden auch die folgenden APIs
aktiviert. Weitere Informationen zu diesen APIs finden Sie auf der
Seite „APIs &Dienste“ in Ihrem Projekt.
Wenn Sie die Cloud Data Fusion API aktivieren, werden die folgenden Dienstkonten automatisch Ihrem Projekt hinzugefügt:
|
Aktivieren Sie für diesen Anwendungsfall die folgenden APIs in dem Projekt, das
das Managed Service for Apache Spark-Projekt enthält:
|
Verschlüsselungsschlüssel
| Referenzkonfiguration | Anwendungsfall |
|---|---|
In der Referenzkonfiguration können Verschlüsselungsschlüssel von Google verwaltet oder CMEK sein. Wichtig: Wenn Sie CMEK verwenden, sind für Ihre Referenzkonfiguration die folgenden Schritte erforderlich:
Je nach den in Ihrer Pipeline verwendeten Diensten, z. B. BigQuery oder Cloud Storage, muss den Dienstkonten auch die Rolle „Cloud KMS CryptoKey-Verschlüsseler/Entschlüsseler“ zugewiesen werden:
|
Wenn Sie CMEK nicht verwenden, sind für diesen Anwendungsfall keine zusätzlichen Änderungen erforderlich. Wenn Sie CMEK verwenden, muss dem folgenden Dienstkonto auf Schlüsselebene in dem Projekt, in dem der Schlüssel erstellt wurde, die Rolle „Cloud KMS CryptoKey-Verschlüsseler/Entschlüsseler“ zugewiesen werden:
Je nach den in Ihrer Pipeline verwendeten Diensten, z. B. BigQuery oder Cloud Storage, muss auch anderen Dienstkonten auf Schlüsselebene die Rolle „Cloud KMS CryptoKey-Verschlüsseler/Entschlüsseler“ zugewiesen werden. Beispiel:
|
Nachdem Sie diese anwendungsfallspezifischen Konfigurationen vorgenommen haben, kann Ihre Datenpipeline in Clustern in einem anderen Projekt ausgeführt werden.
Nächste Schritte
- Weitere Informationen zu Netzwerken in Cloud Data Fusion
- Referenz für einfache und vordefinierte IAM-Rollen