"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark サービスアカウント

Managed Service for Apache Spark バッチワークロードとインタラクティブセッションは、エンドユーザーまたはサービスアカウントの認証情報を使用して実行されます。サービスアカウントの認証情報を使用する場合、バッチワークロードまたはインタラクティブセッションの実行に使用されるサービスアカウントは、バッチまたはセッションのランタイムバージョンによって異なります。

3.0 より前のランタイムサービスアカウント

サービスアカウント認証情報を使用する 3.0 より前の Spark ランタイムバージョンでは、Compute Engine のデフォルトのサービスアカウントまたはユーザー指定のカスタムサービスアカウントを使用して、バッチワークロードを送信するか、インタラクティブセッションを作成します。

3.0 以降のランタイムサービスアカウント

サービスアカウントの認証情報を使用する Spark ランタイムバージョン 3.0 以降では、ユーザー指定のカスタムサービスアカウントを使用してバッチワークロードを送信するか、インタラクティブセッションを作成します。

Managed Service for Apache Spark 3.0 以降のランタイムは、Managed Service for Apache Spark ユーザーの Google Cloud プロジェクトに Dataproc Resource Manager ノードサービスエージェントのロールで Dataproc Resource Manager ノードサービスエージェントのサービスアカウント service-project-number@gcp-sa-dataprocrmnode.iam.gserviceaccount.com を作成します。このサービスアカウントは、ワークロードが作成されたプロジェクトにある Managed Service for Apache Spark リソースに対して次のシステムオペレーションを実行します。

Cloud Logging と Cloud Monitoring
Managed Service for Apache Spark Resource Manager ノードの基本オペレーション（get、heartbeat、mintOAuthToken など）

IAM サービスアカウントのロールを表示して管理する

バッチワークロードまたはセッションサービスアカウントに付与されているロールを表示して管理するには、次の操作を行います。

Google Cloud コンソールで、[IAM] ページに移動します。

[IAM] に移動
[Google 提供のロール付与を含める] をクリックします。
バッチワークロードまたはセッションのデフォルトまたはカスタムサービスアカウントに含まれているロールを表示します。

次の図は、Managed Service for Apache Spark がデフォルトでワークロードまたはセッションのサービスアカウントとして使用する Compute Engine のデフォルトのサービスアカウント project_number-compute@developer.gserviceaccount.com に含まれている必要な Managed Service for Apache Spark ワーカーロールを示しています。

Google Cloud コンソールの IAM セクションで、Compute Engine のデフォルトのサービスアカウントに割り当てられた Managed Service for Apache Spark ワーカーのロール。
サービスアカウントの行に表示されている鉛筆アイコンをクリックして、サービスアカウントのロールを付与または削除できます。

プロジェクト間サービスアカウントの使用方法

バッチワークロードプロジェクト（バッチが送信されるプロジェクト）とは異なるプロジェクトのサービスアカウントを使用するバッチワークロードを送信できます。このセクションでは、サービスアカウントが存在するプロジェクトを service account project、バッチが送信されるプロジェクトを batch project と呼びます。

プロジェクト間のサービスアカウントを使用してバッチワークロードを実行する理由: 別のプロジェクトのサービスアカウントに、そのプロジェクトのリソースへのきめ細かいアクセス権を付与する IAM ロールが割り当てられている場合などが考えられます。

設定の手順

このセクションの例は、3.0 より前のランタイムバージョンで実行されるバッチワークロードの送信に適用されます。

サービスアカウントプロジェクトで:
1. プロジェクト間でのサービスアカウントの接続を有効にします。
2. Dataproc API を有効にします。
  API を有効にするために必要なロール
  API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール（roles/serviceusage.serviceUsageAdmin）が必要です。詳しくは、ロールを付与する方法をご覧ください。
  API の有効化
3. メールアカウント（クラスタを作成するユーザー）に、サービスアカウントプロジェクトのサービスアカウントユーザーのロールを付与します。また、より細かく制御する場合は、サービスアカウントプロジェクトのサービスアカウントのロールを付与します。
  
  詳細については、プロジェクトレベルでロールを付与する場合はプロジェクト、フォルダ、組織へのアクセスを管理するを、サービスアカウントレベルでサービスアカウントへロールを付与する場合はサービスアカウントに対するアクセス権の管理を参照してください。
  
  gcloud CLI の例:
  
  次のサンプルコマンドでは、ユーザーにサービスアカウントのユーザーロールをプロジェクトレベルで付与します。
```
gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
    --member=USER_EMAIL \
    --role="roles/iam.serviceAccountUser"
```
  注:
  - USER_EMAIL: ユーザーアカウントのメールアドレスを user:user-name@example.com の形式で入力します。
  次のサンプルコマンドでは、ユーザーにサービスアカウントのユーザーロールをサービスアカウントレベルで付与します。
```
gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
    --member=USER_EMAIL \
    --role="roles/iam.serviceAccountUser"
```
  注:
  - USER_EMAIL: ユーザーアカウントのメールアドレスを user:user-name@example.com の形式で入力します。
4. サービスアカウントに、バッチプロジェクトに対する Managed Service for Apache Spark ワーカーのロールを付与します。
  
  gcloud CLI の例:
```
gcloud projects add-iam-policy-binding BATCH_PROJECT_ID \
    --member=serviceAccount:SERVICE_ACCOUNT_NAME@SERVICE_ACCOUNT_PROJECT_ID.iam.gserviceaccount.com \
    --role="roles/dataproc.worker"
```
バッチプロジェクトでは、次の操作を行います。
1. Managed Service for Apache Spark サービスエージェントサービスアカウントに、サービスアカウントプロジェクトの（より細かく制御する場合はサービスアカウントプロジェクトのサービスアカウントの）サービスアカウントユーザーとサービスアカウントトークン作成者のロールを付与します。これにより、バッチプロジェクトの Managed Service for Apache Spark サービスエージェントサービスアカウントに、サービスアカウントプロジェクトのサービスアカウント用のトークンを作成することを許可します。
  
  詳細については、プロジェクトレベルでロールを付与する場合はプロジェクト、フォルダ、組織へのアクセスを管理するを、サービスアカウントレベルでサービスアカウントへロールを付与する場合はサービスアカウントに対するアクセス権の管理を参照してください。
  
  gcloud CLI の例:
  
  次のコマンドは、バッチプロジェクトの Managed Service for Apache Spark サービスエージェントサービスアカウントに、サービスアカウントユーザーとサービスアカウントトークン作成者のロールをプロジェクトレベルで付与します。
```
gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
    --member=serviceAccount:service-BATCH_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
    --role="roles/iam.serviceAccountUser"
```
```
gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
    --member=serviceAccount:service-BATCH_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
    --role="roles/iam.serviceAccountTokenCreator"
```
  次のサンプルコマンドでは、バッチプロジェクトの Managed Service for Apache Spark サービスエージェントサービスアカウントに、サービスアカウントユーザーとサービスアカウントトークン作成者のロールをサービスアカウントレベルで付与します。
```
gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
    --member=serviceAccount:service-BATCH_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
    --role="roles/iam.serviceAccountUser"
```
```
gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
    --member=serviceAccount:service-BATCH_PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com \
    --role="roles/iam.serviceAccountTokenCreator"
```
2. バッチプロジェクトの Compute Engine サービスエージェントサービスアカウントに、サービスアカウントプロジェクトの（より細かく制御するには、サービスアカウントプロジェクトのサービスアカウントの）サービスアカウントトークン作成者のロールを付与します。これにより、バッチプロジェクトの Compute Agent サービスエージェントサービスアカウントに、サービスアカウントプロジェクトのサービスアカウント用のトークンを作成する権限が付与されます。
  
  詳細については、プロジェクト、フォルダ、組織へのアクセスを管理するでプロジェクトレベルでロールを付与し、サービスアカウントに対するアクセス権の管理でサービスアカウントレベルでロールを付与するをご覧ください。
  
  gcloud CLI の例:
  
  次のサンプルコマンドでは、バッチプロジェクトの Compute Engine サービスエージェントサービスアカウントに、サービスアカウントトークン作成者のロールをプロジェクトレベルで付与します。
```
gcloud projects add-iam-policy-binding SERVICE_ACCOUNT_PROJECT_ID \
    --member=serviceAccount:service-BATCH_PROJECT_NUMBER@compute-system.iam.gserviceaccount.com \
    --role="roles/iam.serviceAccountTokenCreator"
```
  次のサンプルコマンドでは、クラスタプロジェクトの Compute Engine サービスエージェントサービスアカウントに、サービスアカウントトークン作成者のロールをサービスアカウントレベルで付与します。
```
gcloud iam service-accounts add-iam-policy-binding VM_SERVICE_ACCOUNT_EMAIL \
    --member=serviceAccount:service-BATCH_PROJECT_NUMBER@compute-system.iam.gserviceaccount.com \
    --role="roles/iam.serviceAccountTokenCreator"
```

バッチワークロードを送信する

設定手順を完了すると、バッチワークロードを送信できます。バッチワークロードに使用するサービスアカウントとして、サービスアカウントプロジェクトのサービスアカウントを指定してください。

権限に基づくエラーのトラブルシューティング

バッチワークロードまたはセッションで使用されるサービスアカウントの権限が正しくないか、権限が不足していると、バッチまたはセッションの作成が失敗し、「Driver compute node failed to initialize for batch in 600 seconds」というエラーメッセージが報告されることがあります。このエラーは、割り当てられたタイムアウト時間内に Spark ドライバを起動できなかったことを示します。これは通常、 Google Cloud リソースへの必要なアクセス権がないことが原因です。

この問題をトラブルシューティングするには、サービスアカウントに次の最小限のロールまたは権限があることを確認します。

Managed Service for Apache Spark ワークロードロール（roles/dataproc.worker）: このロールは、Managed Service for Apache Spark が Spark ワークロードとセッションを管理して実行するために必要な権限を付与します。
Storage オブジェクト閲覧者（roles/storage.objectViewer）、Storage オブジェクト作成者（roles/storage.objectCreator）、Storage オブジェクト管理者（roles/storage.admin）: Spark アプリケーションが Cloud Storage バケットから読み取るか、Cloud Storage バケットに書き込む場合、サービスアカウントにはバケットにアクセスするための適切な権限が必要です。たとえば、入力データが Cloud Storage バケットにある場合は、Storage Object Viewer が必要です。アプリケーションが Cloud Storage バケットに出力を書き込む場合は、Storage Object Creator または Storage Object Admin が必要です。
BigQuery データ編集者（roles/bigquery.dataEditor）または BigQuery データ閲覧者（roles/bigquery.dataViewer）: Spark アプリケーションが BigQuery とやり取りする場合は、サービスアカウントに適切な BigQuery ロールがあることを確認します。
Cloud Logging の権限: 効果的なデバッグを行うには、サービスアカウントに Cloud Logging にログを書き込む権限が必要です。通常は、Logging Writer ロール（roles/logging.logWriter）で十分です。

権限またはアクセスに関連する一般的なエラー

dataproc.worker ロールがない: このコアロールがないと、Managed Service for Apache Spark インフラストラクチャがドライバノードを適切にプロビジョニングして管理できません。
Cloud Storage 権限が不足している: 必要なサービスアカウント権限がない状態で、Spark アプリケーションが Cloud Storage バケットから入力データを読み取ろうとしたり、Cloud Storage バケットに出力を書き込もうとしたりすると、重要なリソースにアクセスできないため、ドライバの初期化が失敗する可能性があります。
ネットワークまたはファイアウォールの問題: VPC Service Controls またはファイアウォールルールにより、サービスアカウントの Google Cloud API またはリソースへのアクセスが誤ってブロックされることがあります。

サービスアカウントの権限を確認して更新するには:

Google Cloud コンソールで、[IAM と管理] > [IAM] ページに移動します。
バッチワークロードまたはセッションで使用されるサービスアカウントを見つけます。
必要なロールが割り当てられていることを確認します。追加されていない場合は、追加します。

Managed Service for Apache Spark のロールと権限の一覧については、Managed Service for Apache Spark の権限と IAM ロールをご覧ください。

Managed Service for Apache Spark サービス アカウント コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

3.0 より前のランタイム サービス アカウント

3.0 以降のランタイム サービス アカウント

IAM サービス アカウントのロールを表示して管理する

プロジェクト間サービス アカウントの使用方法