バッチとセッションの作成失敗のトラブルシューティング

このドキュメントでは、Google Cloud Apache Spark 向け Serverless の Spark バッチワークロードとインタラクティブセッションの起動を妨げる一般的な問題のトラブルシューティングについて説明します。

概要

通常、バッチまたはセッションの開始に失敗すると、次のエラーメッセージが報告されます。

Driver compute node failed to initialize for batch in 600 seconds

このエラーメッセージは、Spark ドライバがデフォルトのタイムアウト時間（600 秒、10 分）内に起動できなかったことを示します。一般的な原因は、サービスアカウントの権限、リソースの可用性、ネットワーク構成、Spark プロパティに関連しています。

バッチとセッションの開始失敗の原因とトラブルシューティングの手順

以降のセクションでは、バッチとセッションの開始が失敗する一般的な原因と、問題の解決に役立つトラブルシューティングのヒントについて説明します。

サービスアカウントの権限が不足している

Apache Spark 用サーバーレスバッチまたはセッションで使用されるサービスアカウントには、Apache Spark 用サーバーレスオペレーションの権限と Google Cloud リソースへのアクセス権を含む特定の IAM ロールが必要です。サービスアカウントに必要なロールがない場合、バッチまたはセッションの Spark ドライバの初期化に失敗することがあります。

必要なワーカーロール: バッチまたはセッションのサービスアカウントには、Dataproc ワーカーロール（roles/dataproc.worker）が必要です。このロールには、Serverless for Apache Spark がコンピューティングリソースをプロビジョニングして管理するために必要な最小限の権限が含まれています。
データアクセス権限: Spark アプリケーションが Cloud Storage または BigQuery から読み取りまたは書き込みを行う場合、サービスアカウントには、これらのサービスに関連するロールが必要です。
- Cloud Storage: 読み取りには Storage Object Viewer ロール（roles/storage.objectViewer）が必要です。書き込みには Storage Object Creator ロール（roles/storage.objectCreator）または Storage Object Admin ロール（roles/storage.admin）が必要です。
- BigQuery: 読み取りには BigQuery Data Viewer ロール（roles/bigquery.dataViewer）が必要で、書き込みには BigQuery Data Editor ロール（roles/bigquery.dataEditor）が必要です。
ロギング権限: サービスアカウントには、Cloud Logging にログを書き込む権限を持つロールが必要です。通常は、Logging Writer ロール（roles/logging.logWriter）で十分です。

トラブルシューティングのヒント:

バッチまたはセッションのサービスアカウントを特定します。指定しない場合、デフォルトで Compute Engine のデフォルトサービスアカウントが使用されます。
Google Cloud コンソールの [IAM と管理] > [IAM] ページに移動し、バッチまたはセッションのサービスアカウントを見つけて、オペレーションに必要なロールがあることを確認します。不足しているロールを付与します。

割り当て不足

Google Cloud Apache Spark 向け Serverless または他の Google Cloud リソースのプロジェクトまたはリージョン固有の割り当てを超えると、新しいバッチやセッションが開始されなくなる可能性があります。

トラブルシューティングのヒント:

Google Cloud Apache Spark 用サーバーレスの割り当てページで、同時バッチ、DCU、シャッフルストレージの制限を確認します。
- gcloud compute quotas list コマンドを使用して、プロジェクトとリージョンの現在の使用量と上限を表示することもできます。
```
gcloud compute quotas list --project=PROJECT_ID --filter="service:dataproc.googleapis.com"
```
割り当ての上限に繰り返し達する場合は、 Google Cloud コンソールから割り当ての増加をリクエストすることを検討してください。

ネットワーク構成に関する問題

VPC 構成、限定公開の Google アクセス、ファイアウォールルールなどのネットワーク設定が正しくないと、Spark ドライバが初期化されたり、必要なサービスに接続されたりするのをブロックする可能性があります。

トラブルシューティングのヒント:

バッチまたはセッションに指定された VPC ネットワークとサブネットが正しく構成され、十分な IP アドレスが使用可能であることを確認します。
バッチまたはセッションが公共のインターネットを経由せずに Google API とサービスにアクセスする必要がある場合は、サブネットで限定公開の Google アクセスが有効になっていることを確認します。
Apache Spark 向け Serverless のバッチワークロードとインタラクティブセッションは、内部 IP アドレスのみを持つ VM と、セッションサブネットでプライベート Google アクセスが自動的に有効になっているリージョンサブネットで実行されます。
VPC ファイアウォールルールを確認して、Spark アプリケーションに必要な内部通信や Google API または外部サービスへの下り（外向き）が誤ってブロックされていないことを確認します。

無効な Spark プロパティまたはアプリケーションコードに関する問題

Spark プロパティ（特にドライバリソースに関連するプロパティ）の構成が誤っている場合や、Spark アプリケーションコードに問題がある場合は、起動に失敗することがあります。

トラブルシューティングのヒント:

spark.driver.memory と spark.driver.cores の値を確認します。妥当な範囲内であり、利用可能な DCU と一致していることを確認します。これらのプロパティの値が大きすぎると、リソースの枯渇や初期化の失敗につながる可能性があります。デバッグを簡素化するために、不要な Spark プロパティや試験運用中の Spark プロパティを削除します。
「Hello World」Spark アプリケーションを実行して、問題が環境設定によるものか、コードの複雑さやエラーによるものかを判断します。
バッチまたはセッション用に指定されたすべてのアプリケーション JAR、Python ファイル、依存関係が Cloud Storage に正しく配置され、バッチまたはセッションのサービスアカウントからアクセスできることを確認します。

ログを確認する

バッチ作成の失敗を診断するうえで重要な手順は、Cloud Logging の詳細なログを調べることです。

Google Cloud コンソールの [Cloud Logging] ページに移動します。
Apache Spark 用 Serverless バッチまたはセッションのフィルタ:
1. [リソース] プルダウンで、Cloud Dataproc Batch または Cloud Dataproc Session を選択します。
2. 失敗したバッチまたはセッションの batch_id または session_id でフィルタします。project_id と location（リージョン）でフィルタすることもできます。
jsonPayload.component="driver" を含むログエントリを探します。これらのログには、600 秒のタイムアウトが発生する前にドライバの初期化が失敗した理由を特定できる特定のエラーメッセージやスタックトレースが含まれていることがよくあります。

バッチとセッションの作成失敗のトラブルシューティング コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

バッチとセッションの開始失敗の原因とトラブルシューティングの手順

サービス アカウントの権限が不足している

割り当て不足

ネットワーク構成に関する問題

無効な Spark プロパティまたはアプリケーション コードに関する問題

ログを確認する

バッチとセッションの作成失敗のトラブルシューティング

サービスアカウントの権限が不足している

無効な Spark プロパティまたはアプリケーションコードに関する問題