"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark プリンシパル

Managed Service for Apache Spark を使用してクラスタを作成し、クラスタでジョブを実行すると、サービスはプロジェクトで必要な Managed Service for Apache Spark のロールと権限を設定し、タスクの完了に必要な Google Cloud リソースにアクセスして使用します。ただし、複数のプロジェクトにわたって作業（たとえば、別のプロジェクトのデータにアクセスするなど）を行う場合、プロジェクトをまたぐリソースにアクセスするためのロールと権限を設定する必要があります。

複数のプロジェクトにわたる作業の実現に役立つように、このドキュメントでは、Managed Service for Apache Spark を使用するプリンシパルと、 Google Cloud リソースにアクセスして使用するためにプリンシパルが必要とする権限を含むロールを示します。

Managed Service for Apache Spark にアクセスして使用するプリンシパル（ID）は 3 つあります。

ユーザー ID
コントロールプレーン ID
データプレーン ID

Dataproc API ユーザー（ユーザー ID）

例: username@example.com

これは、Managed Service for Apache Spark を呼び出してクラスタを作成し、ジョブを送信して、サービスに他のリクエストを行うユーザーです。通常、ユーザーは個人ですが、API クライアントや別のGoogle Cloud サービス（Compute Engine、Cloud Run functions、Managed Service for Apache Airflow など）から Managed Service for Apache Spark を呼び出す場合にはサービスアカウントにすることもできます。

関連するロール

Dataproc のロール、プロジェクトのロール

注

Dataproc API が送信するジョブは、Linux で root として実行されます。
クラスタの作成時に --metadata=block-project-ssh-keys=true を設定して明示的にブロックしない限り、Managed Service for Apache Spark クラスタはプロジェクト全体で Compute Engine SSH メタデータを継承します（クラスタメタデータを参照）。
プロジェクトレベルの SSH ユーザーごとに HDFS ユーザーディレクトリが作成されます。これらの HDFS ディレクトリはクラスタのデプロイ時に作成され、新しい（デプロイ後の）SSH ユーザーには、既存のクラスタの HDFS ディレクトリは指定されません。

Managed Service for Apache Spark サービスエージェント（コントロールプレーン ID）

例: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Managed Service for Apache Spark サービスエージェントサービスアカウントは、Managed Service for Apache Spark クラスタが作成されたプロジェクト内のリソースに対して、幅広いシステムオペレーションを実行するために使用されます。たとえば、次の場合に使用されます。

VM インスタンス、インスタンスグループ、インスタンステンプレートなどの Compute Engine リソースの作成
イメージ、ファイアウォール、Managed Service for Apache Spark 初期化アクション、Cloud Storage バケットなどのリソースの構成を確認する get と list のオペレーション
Managed Service for Apache Spark ステージングバケットと一時バケットの自動作成（ユーザーによってステージングバケットまたは一時バケットが指定されていない場合）
ステージングバケットへのクラスタ構成メタデータの書き込み
ホストプロジェクトの VPC ネットワークへのアクセス

関連するロール

Dataproc サービスエージェント

Managed Service for Apache Spark VM サービスアカウント（データプレーン ID）

例: project-number-compute@developer.gserviceaccount.com

アプリケーションコードは、Managed Service for Apache Spark VM で VM サービスアカウントとして実行されます。ユーザージョブには、このサービスアカウントのロール（および関連付けられている権限）が付与されます。

VM サービスアカウントは次の処理を行います。

Managed Service for Apache Spark コントロールプレーンと通信します。
Managed Service for Apache Spark ステージングバケットと一時バケットとの間でデータを読み書きします。
Managed Service for Apache Spark ジョブで必要な場合は、Cloud Storage、BigQuery、Cloud Logging、その他の Google Cloud リソースとの間でデータの読み取りと書き込みを行います。

関連するロール

次のステップ

Managed Service for Apache Spark のロールと権限の詳細を確認します。
Managed Service for Apache Spark サービスアカウントの詳細を確認する。
BigQuery アクセス制御を確認する。
Cloud Storage のアクセス制御オプションを確認する。

Managed Service for Apache Spark プリンシパル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Dataproc API ユーザー（ユーザー ID）

Managed Service for Apache Spark サービス エージェント（コントロール プレーン ID）

Managed Service for Apache Spark VM サービス アカウント（データプレーン ID）

次のステップ

Managed Service for Apache Spark プリンシパル

Managed Service for Apache Spark サービスエージェント（コントロールプレーン ID）

Managed Service for Apache Spark VM サービスアカウント（データプレーン ID）