Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

ユースケース: 別のプロジェクトの Managed Service for Apache Spark クラスタのアクセス制御

このページでは、別の Google Cloud プロジェクトで Managed Service for Apache Spark クラスタを使用するパイプラインをデプロイして実行する際のアクセス制御の管理について説明します。

シナリオ

デフォルトでは、Cloud Data Fusion インスタンスがGoogle Cloud プロジェクトで起動されると、同じプロジェクト内の Managed Service for Apache Spark クラスタを使用してパイプラインをデプロイして実行します。ただし、組織によっては、別のプロジェクトでクラスタを使用することが必要な場合があります。このユースケースでは、プロジェクト間のアクセスを管理する必要があります。次のページでは、ベースライン（デフォルト）構成を変更して、適切なアクセス制御を適用する方法について説明します。

準備

このユースケースのソリューションを理解するには、次のコンテキストが必要です。

基本的な Cloud Data Fusion のコンセプトに関する知識
Cloud Data Fusion の Identity and Access Management（IAM）に関する知識
Cloud Data Fusion ネットワーキングに関する知識

前提条件と対象範囲

このユースケースには、次の要件があります。

プライベート Cloud Data Fusion インスタンス。セキュリティ上の理由から、組織がこのタイプのインスタンスの使用を要求する場合があります。
BigQuery のソースとシンク。
ロールベースのアクセス制御（RBAC）ではなく、IAM を使用したアクセス制御。

ソリューション

このソリューションでは、ベースラインとユースケース固有のアーキテクチャおよび構成を比較します。

アーキテクチャ

次の図は、同じプロジェクト（ベースライン）とテナントプロジェクトの VPC を介して別のプロジェクトでクラスタを使用する場合の、Cloud Data Fusion インスタンスの作成とパイプラインの実行に関するプロジェクトアーキテクチャを比較しています。

ベースラインアーキテクチャ

この図は、プロジェクトのベースラインアーキテクチャを示しています。

Cloud Data Fusion のテナント、顧客、Dataproc プロジェクトのアーキテクチャ。

ベースライン構成では、プライベート Cloud Data Fusion インスタンスを作成し、追加のカスタマイズを行うことなくパイプラインを実行します。

組み込みのコンピューティングプロファイルのいずれかを使用する
送信元とシンクがインスタンスと同じプロジェクトにある
どのサービスアカウントにも追加のロールが付与されてない

テナントプロジェクトとお客様のプロジェクトの詳細については、ネットワーキングをご覧ください。

ユースケースのアーキテクチャ

次の図は、別のプロジェクトでクラスタを使用する場合のプロジェクトアーキテクチャを示しています。

Cloud Data Fusion のテナント、顧客、Dataproc プロジェクトのアーキテクチャ。

構成

以下の各セクションでは、ベースライン構成と、デフォルトのテナントプロジェクト VPC を介して別のプロジェクトで Managed Service for Apache Spark クラスタを使用するユースケース固有の構成を比較します。

以下のユースケースの説明では、お客様のプロジェクトは Cloud Data Fusion インスタンスが実行される場所、Managed Service for Apache Spark プロジェクトは Managed Service for Apache Spark クラスタが起動される場所です。

テナントプロジェクトの VPC とインスタンス

ベースライン	ユースケース
前述のベースラインアーキテクチャの図では、テナントプロジェクトには次のコンポーネントが含まれています。自動的に作成されるデフォルトの VPC。 Cloud Data Fusion インスタンスの物理デプロイ。	このユースケースでは、追加の構成は必要ありません。

お客様のプロジェクト

ベースライン	ユースケース
Google Cloud プロジェクトは、パイプラインをデプロイして実行する場所です。デフォルトでは、パイプラインを実行すると、Managed Service for Apache Spark クラスタがこのプロジェクトで起動されます。	このユースケースでは、2 つのプロジェクトを管理します。このページでは、お客様のプロジェクトは、Cloud Data Fusion インスタンスが実行される場所を意味します。 Managed Service for Apache Spark プロジェクトは、Managed Service for Apache Spark クラスタが起動する場所を指します。

お客様の VPC

ベースライン	ユースケース
自分の（お客様の）観点からは、お客様の VPC は Cloud Data Fusion が論理的に配置されている場所です。重要ポイント: お客様の VPC の詳細は、プロジェクトの VPC ネットワークページで確認できます。 [VPC ネットワーク] に移動	このユースケースでは、追加の構成は必要ありません。

ベースライン

ユースケース

自分の（お客様の）観点からは、お客様の VPC は Cloud Data Fusion が論理的に配置されている場所です。

重要ポイント:
お客様の VPC の詳細は、プロジェクトの VPC ネットワークページで確認できます。

[VPC ネットワーク] に移動

このユースケースでは、追加の構成は必要ありません。

Cloud Data Fusion サブネット

ベースライン	ユースケース
自分の（お客様の）観点からは、このサブネットは Cloud Data Fusion が論理的に配置されている場所です。重要ポイント: このサブネットのリージョンは、テナントプロジェクトの Cloud Data Fusion インスタンスのロケーションと同じです。	このユースケースでは、追加の構成は必要ありません。

Managed Service for Apache Spark サブネット

ベースライン	ユースケース
パイプラインの実行時に Managed Service for Apache Spark クラスタが起動されるサブネット。重要ポイント: このベースライン構成では、Managed Service for Apache Spark は Cloud Data Fusion インスタンスと同じサブネットで実行されます。 Cloud Data Fusion は、Cloud Data Fusion のインスタンスとサブネットの両方と同じリージョンにあるサブネットを特定します。このリージョンにサブネットが 1 つのみ存在する場合、サブネットは同じです。 Managed Service for Apache Spark サブネットには、プライベート Google アクセスが必要です。	これは、パイプラインの実行時に Managed Service for Apache Spark クラスタが起動される新しいサブネットです。重要ポイント: この新しいサブネットでは、限定公開の Google アクセスを [オン] に設定します。 Managed Service for Apache Spark サブネットは、Cloud Data Fusion インスタンスと同じロケーションに存在する必要はありません。

ベースライン

ユースケース

パイプラインの実行時に Managed Service for Apache Spark クラスタが起動されるサブネット。

重要ポイント:

このベースライン構成では、Managed Service for Apache Spark は Cloud Data Fusion インスタンスと同じサブネットで実行されます。
Cloud Data Fusion は、Cloud Data Fusion のインスタンスとサブネットの両方と同じリージョンにあるサブネットを特定します。このリージョンにサブネットが 1 つのみ存在する場合、サブネットは同じです。
Managed Service for Apache Spark サブネットには、プライベート Google アクセスが必要です。

これは、パイプラインの実行時に Managed Service for Apache Spark クラスタが起動される新しいサブネットです。

重要ポイント:

この新しいサブネットでは、限定公開の Google アクセスを [オン] に設定します。
Managed Service for Apache Spark サブネットは、Cloud Data Fusion インスタンスと同じロケーションに存在する必要はありません。

ソースとシンク

ベースライン	ユースケース
データが抽出されるソースと、データが読み込まれるシンク（BigQuery のソースやシンクなど）。重要ポイント: データをフェッチして読み込むジョブは、データセットと同じロケーションで処理する必要があります。そのように処理しないとエラーが発生します。	このページのユースケース固有のアクセス制御構成は、BigQuery のソースとシンク用です。

ベースライン

ユースケース

データが抽出されるソースと、データが読み込まれるシンク（BigQuery のソースやシンクなど）。

重要ポイント:

データをフェッチして読み込むジョブは、データセットと同じロケーションで処理する必要があります。そのように処理しないとエラーが発生します。

このページのユースケース固有のアクセス制御構成は、BigQuery のソースとシンク用です。

Cloud Storage

ベースライン	ユースケース
Cloud Data Fusion と Managed Service for Apache Spark 間でファイルを転送するのに役立つ、お客様のプロジェクトのストレージバケット。重要ポイント: このバケットは、Cloud Data Fusion ウェブインターフェースで、エフェメラルクラスタのコンピューティングプロファイルの設定で指定できます。バッチパイプラインとリアルタイムパイプライン、またはレプリケーションジョブの場合: Compute プロファイルでバケットを指定しない場合、Cloud Data Fusion はインスタンスと同じプロジェクトにバケットを作成します。静的 Managed Service for Apache Spark クラスタであっても、このベースライン構成では、バケットが Cloud Data Fusion によって作成され、Managed Service for Apache Spark のステージングバケットと一時バケットとは異なります。 Cloud Data Fusion API サービスエージェントには、Cloud Data Fusion インスタンスを含むプロジェクトにこのバケットを作成するための権限が組み込まれています。	このユースケースでは、追加の構成は必要ありません。

ベースライン

ユースケース

Cloud Data Fusion と Managed Service for Apache Spark 間でファイルを転送するのに役立つ、お客様のプロジェクトのストレージバケット。

重要ポイント:

このバケットは、Cloud Data Fusion ウェブインターフェースで、エフェメラルクラスタのコンピューティングプロファイルの設定で指定できます。
バッチパイプラインとリアルタイムパイプライン、またはレプリケーションジョブの場合: Compute プロファイルでバケットを指定しない場合、Cloud Data Fusion はインスタンスと同じプロジェクトにバケットを作成します。
静的 Managed Service for Apache Spark クラスタであっても、このベースライン構成では、バケットが Cloud Data Fusion によって作成され、Managed Service for Apache Spark のステージングバケットと一時バケットとは異なります。
Cloud Data Fusion API サービスエージェントには、Cloud Data Fusion インスタンスを含むプロジェクトにこのバケットを作成するための権限が組み込まれています。

このユースケースでは、追加の構成は必要ありません。

ソースとシンクで使用される一時バケット

ベースライン	ユースケース
ソースとシンクのプラグインによって作成された一時バケット（BigQuery Sink プラグインによって開始された読み込みジョブなど）。重要ポイント: これらのバケットは、ソースプラグインとシンクプラグインのプロパティを構成するときに定義できます。バケットを定義しない場合、Managed Service for Apache Spark が実行されているのと同じプロジェクトにバケットが作成されます。データセットがマルチリージョンの場合、バケットは同じスコープに作成されます。プラグイン構成でバケットを定義する場合、バケットのリージョンはデータセットのリージョンと一致する必要があります。プラグイン構成でバケットを定義しない場合、パイプラインが終了するときに、作成されたバケットが削除されます。	このユースケースでは、バケットは任意のプロジェクトに作成できます。

ベースライン

ユースケース

ソースとシンクのプラグインによって作成された一時バケット（BigQuery Sink プラグインによって開始された読み込みジョブなど）。

重要ポイント:

これらのバケットは、ソースプラグインとシンクプラグインのプロパティを構成するときに定義できます。
バケットを定義しない場合、Managed Service for Apache Spark が実行されているのと同じプロジェクトにバケットが作成されます。
データセットがマルチリージョンの場合、バケットは同じスコープに作成されます。
プラグイン構成でバケットを定義する場合、バケットのリージョンはデータセットのリージョンと一致する必要があります。
プラグイン構成でバケットを定義しない場合、パイプラインが終了するときに、作成されたバケットが削除されます。

このユースケースでは、バケットは任意のプロジェクトに作成できます。

プラグインのデータのソースまたはシンクであるバケット

ベースライン	ユースケース
Cloud Storage プラグインや FTP to Cloud Storage プラグインなどのプラグインの構成で指定したお客様のバケット。	このユースケースでは、追加の構成は必要ありません。

IAM: Cloud Data Fusion API サービスエージェント

ベースラインユースケース

ベースライン	ユースケース
Cloud Data Fusion API を有効にすると、Cloud Data Fusion API サービスエージェントのロール（`roles/datafusion.serviceAgent`）が Cloud Data Fusion サービスアカウント、プライマリサービスエージェントに自動的に付与されます。重要ポイント: このロールには、インスタンスと同じプロジェクト内のサービス（BigQuery や Managed Service for Apache Spark など）の権限が含まれています。サポートされているすべてのサービスについては、ロールの詳細をご覧ください。 Cloud Data Fusion サービスアカウントは、次の処理を行います。他のサービスとのデータプレーン（パイプライン設計と実行）通信（例: 設計時の Cloud Storage、BigQuery、Datastream との通信）。 Managed Service for Apache Spark クラスタをプロビジョニングします。 Oracle ソースから複製する場合は、このサービスアカウントに、ジョブが発生するプロジェクトで Datastream 管理者ロールとストレージ管理者ロールも付与する必要があります。このページでは、レプリケーションのユースケースは扱いません。	このユースケースでは、Managed Service for Apache Spark プロジェクトのサービスアカウントに Cloud Data Fusion API サービスエージェントロールを付与します。次に、そのプロジェクトで次のロールを付与します。 Compute ネットワークユーザーのロール Dataproc 編集者のロール

Cloud Data Fusion API を有効にすると、Cloud Data Fusion API サービスエージェントのロール（roles/datafusion.serviceAgent）が Cloud Data Fusion サービスアカウント、プライマリサービスエージェントに自動的に付与されます。

重要ポイント:

このロールには、インスタンスと同じプロジェクト内のサービス（BigQuery や Managed Service for Apache Spark など）の権限が含まれています。サポートされているすべてのサービスについては、ロールの詳細をご覧ください。
Cloud Data Fusion サービスアカウントは、次の処理を行います。
- 他のサービスとのデータプレーン（パイプライン設計と実行）通信（例: 設計時の Cloud Storage、BigQuery、Datastream との通信）。
- Managed Service for Apache Spark クラスタをプロビジョニングします。
Oracle ソースから複製する場合は、このサービスアカウントに、ジョブが発生するプロジェクトで Datastream 管理者ロールとストレージ管理者ロールも付与する必要があります。このページでは、レプリケーションのユースケースは扱いません。

このユースケースでは、Managed Service for Apache Spark プロジェクトのサービスアカウントに Cloud Data Fusion API サービスエージェントロールを付与します。次に、そのプロジェクトで次のロールを付与します。

Compute ネットワークユーザーのロール
Dataproc 編集者のロール

IAM: Managed Service for Apache Spark サービスアカウント

ベースラインユースケース

ベースライン	ユースケース
Managed Service for Apache Spark クラスタ内でパイプラインをジョブとして実行するために使用されるサービスアカウント。デフォルトでは、Compute Engine サービスアカウントです。省略可: ベースライン構成で、デフォルトのサービスアカウントを同じプロジェクトの別のサービスアカウントに変更できます。新しいサービスアカウントに次の IAM ロールを付与します。 Cloud Data Fusion ランナーのロール。このロールにより、Managed Service for Apache Spark は Cloud Data Fusion API と通信できます。 Dataproc ワーカーのロール。このロールを使用すると、Managed Service for Apache Spark クラスタでジョブを実行できます。重要ポイント: Service API エージェントが Managed Service for Apache Spark クラスタを起動できるように、新しいサービスの API エージェントサービスアカウントに Managed Service for Apache Spark サービスアカウントのサービスアカウントユーザーロールを付与する必要があります。	このユースケースの例では、Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウント（`PROJECT_NUMBER-compute@developer.gserviceaccount.com`）を使用していることを前提としています。 Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウントに次のロールを付与します。注: Cloud Data Fusion パイプラインの実行に別のサービスアカウントを使用するには、Managed Service for Apache Spark プロジェクトのそのサービスアカウントのロールを付与します。 Dataproc ワーカーのロール。 Managed Service for Apache Spark が BigQuery の一時バケットを作成できるようにするストレージ管理者のロール（または、少なくとも「storage.buckets.create」権限）。 BigQuery ジョブユーザーのロール。このロールにより、Managed Service for Apache Spark は読み込みジョブを作成できます。ジョブは、デフォルトで Managed Service for Apache Spark プロジェクトに作成されます。 BigQuery データセット編集者のロール。このロールを使用すると、Managed Service for Apache Spark はデータの読み込み中にデータセットを作成できます。 Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウントの Cloud Data Fusion サービスアカウントに、サービスアカウントのユーザーロールを付与します。この操作は、Managed Service for Apache Spark プロジェクトで実行する必要があります。 Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウントを Cloud Data Fusion プロジェクトに追加します。次のロールも付与します。 Cloud Data Fusion コンシューマーバケットからパイプラインジョブ関連のアーティファクトを取得する Storage オブジェクト閲覧者ロール。 Cloud Data Fusion ランナーのロール。これにより、Managed Service for Apache Spark クラスタは実行中に Cloud Data Fusion と通信できます。

Managed Service for Apache Spark クラスタ内でパイプラインをジョブとして実行するために使用されるサービスアカウント。デフォルトでは、Compute Engine サービスアカウントです。

省略可: ベースライン構成で、デフォルトのサービスアカウントを同じプロジェクトの別のサービスアカウントに変更できます。新しいサービスアカウントに次の IAM ロールを付与します。

Cloud Data Fusion ランナーのロール。このロールにより、Managed Service for Apache Spark は Cloud Data Fusion API と通信できます。
Dataproc ワーカーのロール。このロールを使用すると、Managed Service for Apache Spark クラスタでジョブを実行できます。

重要ポイント:

Service API エージェントが Managed Service for Apache Spark クラスタを起動できるように、新しいサービスの API エージェントサービスアカウントに Managed Service for Apache Spark サービスアカウントのサービスアカウントユーザーロールを付与する必要があります。

このユースケースの例では、Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウント（PROJECT_NUMBER-compute@developer.gserviceaccount.com）を使用していることを前提としています。

Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウントに次のロールを付与します。

Dataproc ワーカーのロール。
Managed Service for Apache Spark が BigQuery の一時バケットを作成できるようにするストレージ管理者のロール（または、少なくとも「storage.buckets.create」権限）。
BigQuery ジョブユーザーのロール。このロールにより、Managed Service for Apache Spark は読み込みジョブを作成できます。ジョブは、デフォルトで Managed Service for Apache Spark プロジェクトに作成されます。
BigQuery データセット編集者のロール。このロールを使用すると、Managed Service for Apache Spark はデータの読み込み中にデータセットを作成できます。

Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウントの Cloud Data Fusion サービスアカウントに、サービスアカウントのユーザーロールを付与します。この操作は、Managed Service for Apache Spark プロジェクトで実行する必要があります。

Managed Service for Apache Spark プロジェクトのデフォルトの Compute Engine サービスアカウントを Cloud Data Fusion プロジェクトに追加します。次のロールも付与します。

Cloud Data Fusion コンシューマーバケットからパイプラインジョブ関連のアーティファクトを取得する Storage オブジェクト閲覧者ロール。
Cloud Data Fusion ランナーのロール。これにより、Managed Service for Apache Spark クラスタは実行中に Cloud Data Fusion と通信できます。

API

ベースライン	ユースケース
Cloud Data Fusion API を有効にすると、次の API も有効になります。これらの API の詳細については、プロジェクトの [API とサービス] ページに移動してください。 [API とサービス] に移動 Cloud Autoscaling API Dataproc API Cloud Dataproc Control API Cloud DNS API Cloud OS Login API Pub/Sub API Compute Engine API Container Filesystem API Container Registry API Service Account Credentials API Identity and Access Management API Kubernetes Engine API 注: プロジェクトで Cloud Resource Manager API を手動で有効にします。 Cloud Data Fusion API を有効にすると、次のサービスアカウントがプロジェクトに自動的に追加されます。 Google API サービスエージェント Compute Engine サービスエージェント Kubernetes Engine サービスエージェント Google Container Registry サービスエージェント Google Cloud Dataproc サービスエージェント Cloud KMS サービスエージェント Cloud Pub/Sub サービスアカウント	このユースケースでは、Managed Service for Apache Spark プロジェクトを含むプロジェクトで次の API を有効にします。 Compute Engine API Dataproc API（このプロジェクトですでに有効になっている可能性があります）。Dataproc API を有効にすると、Dataproc Control API が自動的に有効になります。 Resource Manager API。

ベースライン

ユースケース

Cloud Data Fusion API を有効にすると、次の API も有効になります。これらの API の詳細については、プロジェクトの [API とサービス] ページに移動してください。

[API とサービス] に移動

Cloud Autoscaling API
Dataproc API
Cloud Dataproc Control API
Cloud DNS API
Cloud OS Login API
Pub/Sub API
Compute Engine API
Container Filesystem API
Container Registry API
Service Account Credentials API
Identity and Access Management API
Kubernetes Engine API

Cloud Data Fusion API を有効にすると、次のサービスアカウントがプロジェクトに自動的に追加されます。

Google API サービスエージェント
Compute Engine サービスエージェント
Kubernetes Engine サービスエージェント
Google Container Registry サービスエージェント
Google Cloud Dataproc サービスエージェント
Cloud KMS サービスエージェント
Cloud Pub/Sub サービスアカウント

このユースケースでは、Managed Service for Apache Spark プロジェクトを含むプロジェクトで次の API を有効にします。

Compute Engine API
Dataproc API（このプロジェクトですでに有効になっている可能性があります）。Dataproc API を有効にすると、Dataproc Control API が自動的に有効になります。
Resource Manager API。

暗号鍵

ベースラインユースケース

ベースライン	ユースケース
ベースライン構成では、暗号鍵は Google が管理することも、CMEK にすることもできます。重要ポイント: CMEK を使用する場合、ベースライン構成には次の対象が必要です。鍵はリージョンの鍵であり、Cloud Data Fusion インスタンスと同じリージョンに作成する必要があります。作成されたプロジェクトの次のサービスアカウントに（ Google Cloud コンソールの IAM ページではなく）、鍵レベルで Cloud KMS 暗号鍵の暗号化/復号のロールを付与します。 Cloud Data Fusion API サービスアカウント Managed Service for Apache Spark サービスアカウント。デフォルトでは Compute Engine サービスエージェント（`service-PROJECT_NUMBER@compute-system.iam.gserviceaccount.com`）です。 Google Cloud Dataproc サービスエージェント（`service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com`） Cloud Storage サービスエージェント（`service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com`）パイプラインで使用されるサービス（BigQuery や Cloud Storage など）に応じて、サービスアカウントには Cloud KMS 暗号鍵の暗号化 / 復号のロールも付与する必要があります。 BigQuery サービスアカウント（`bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com`） Pub/Sub サービスアカウント（`service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com`） Spanner サービスアカウント（`service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com`）	CMEK を使用しない場合、このユースケースで追加の変更は必要ありません。 CMEK を使用する場合、作成されたプロジェクトの次のサービスアカウントに、鍵レベルで Cloud KMS CryptoKey の暗号化 / 復号のロールを、提供する必要があります。 Cloud Storage サービスエージェント（`service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com`）パイプラインで使用されるサービス（BigQuery や Cloud Storage など）に応じて、他のサービスアカウントに鍵レベルで Cloud KMS 暗号鍵の暗号化 / 復号のロールも付与する必要があります。例: BigQuery サービスアカウント（`bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com`） Pub/Sub サービスアカウント（`service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com`） Spanner サービスアカウント（`service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com`）

ベースライン構成では、暗号鍵は Google が管理することも、CMEK にすることもできます。

重要ポイント:

CMEK を使用する場合、ベースライン構成には次の対象が必要です。

鍵はリージョンの鍵であり、Cloud Data Fusion インスタンスと同じリージョンに作成する必要があります。
作成されたプロジェクトの次のサービスアカウントに（ Google Cloud コンソールの IAM ページではなく）、鍵レベルで Cloud KMS 暗号鍵の暗号化/復号のロールを付与します。
- Cloud Data Fusion API サービスアカウント
- Managed Service for Apache Spark サービスアカウント。デフォルトでは Compute Engine サービスエージェント（service-PROJECT_NUMBER@compute-system.iam.gserviceaccount.com）です。
- Google Cloud Dataproc サービスエージェント（service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com）
- Cloud Storage サービスエージェント（service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com）

パイプラインで使用されるサービス（BigQuery や Cloud Storage など）に応じて、サービスアカウントには Cloud KMS 暗号鍵の暗号化 / 復号のロールも付与する必要があります。

BigQuery サービスアカウント（bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com）
Pub/Sub サービスアカウント（service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com）
Spanner サービスアカウント（service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com）

CMEK を使用しない場合、このユースケースで追加の変更は必要ありません。

CMEK を使用する場合、作成されたプロジェクトの次のサービスアカウントに、鍵レベルで Cloud KMS CryptoKey の暗号化 / 復号のロールを、提供する必要があります。

Cloud Storage サービスエージェント（service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com）

パイプラインで使用されるサービス（BigQuery や Cloud Storage など）に応じて、他のサービスアカウントに鍵レベルで Cloud KMS 暗号鍵の暗号化 / 復号のロールも付与する必要があります。例:

BigQuery サービスアカウント（bq-PROJECT_NUMBER@bigquery-encryption.iam.gserviceaccount.com）
Pub/Sub サービスアカウント（service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com）
Spanner サービスアカウント（service-PROJECT_NUMBER@gcp-sa-spanner.iam.gserviceaccount.com）

ユースケース固有の構成を行うと、データパイプラインは別のプロジェクトのクラスタで実行を開始できます。

次のステップ

Cloud Data Fusion のネットワーキングについて学習する。
IAM の基本ロールと事前定義ロールのリファレンスを確認する。

ユースケース: 別のプロジェクトの Managed Service for Apache Spark クラスタのアクセス制御 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

シナリオ

準備

前提条件と対象範囲

ソリューション

アーキテクチャ

ベースライン アーキテクチャ

ユースケースのアーキテクチャ

構成

テナント プロジェクトの VPC とインスタンス

お客様のプロジェクト

お客様の VPC

Cloud Data Fusion サブネット

Managed Service for Apache Spark サブネット

ソースとシンク

Cloud Storage

ソースとシンクで使用される一時バケット

プラグインのデータのソースまたはシンクであるバケット

IAM: Cloud Data Fusion API サービス エージェント

IAM: Managed Service for Apache Spark サービス アカウント

API

暗号鍵

次のステップ

ユースケース: 別のプロジェクトの Managed Service for Apache Spark クラスタのアクセス制御

ベースラインアーキテクチャ

テナントプロジェクトの VPC とインスタンス

IAM: Cloud Data Fusion API サービスエージェント

IAM: Managed Service for Apache Spark サービスアカウント