「Managed Service for Apache Spark」は、以前は「Compute Engine 上の Dataproc」（クラスタデプロイ）と「Apache Spark 用 Google Cloud Serverless」（サーバーレスデプロイ）と呼ばれていたプロダクトの新しい名前です。

バッチとセッションの作成失敗のトラブルシューティング

このドキュメントでは、Managed Service for Apache Spark の Spark バッチワークロードとインタラクティブセッションが起動しない一般的な問題のトラブルシューティングについて説明します。

概要

通常、バッチまたはセッションの起動に失敗すると、次のエラーメッセージが報告されます。

Driver compute node failed to initialize for batch in 600 seconds

このエラーメッセージは、Spark ドライバがデフォルトのタイムアウト時間である 600 秒（10 分）以内に起動できなかったことを示しています。一般的な原因は、サービスアカウントの権限、リソースの可用性、ネットワーク構成、Spark プロパティに関連しています。

バッチとセッションの起動失敗の原因とトラブルシューティングの手順

以降のセクションでは、バッチとセッションの起動失敗の一般的な原因と、問題の解決に役立つトラブルシューティングのヒントを示します。

サービスアカウントの権限が不足している

Managed Service for Apache Spark バッチまたはセッションで使用されるサービスアカウントには、Managed Service for Apache Spark オペレーションの権限とリソースへのアクセス権を含む特定の IAM ロールが必要です。 Google Cloud サービスアカウントに必要なロールがない場合、バッチまたはセッションの Spark ドライバを初期化できないことがあります。

必要なワーカーロール: バッチまたはセッションのサービスアカウントには、Managed Service for Apache Spark ワーカーロール （roles/dataproc.worker）が必要です。このロールには、Managed Service for Apache Spark がコンピューティングリソースをプロビジョニングして管理するために必要な最小限の権限が含まれています。
データアクセス権限: Spark アプリケーションが Cloud Storage または BigQuery から読み取りまたは書き込みを行う場合、サービスアカウントには、これらのサービスに関連するロールが必要です。
- Cloud Storage: 読み取りにはStorage Object Viewer ロール （roles/storage.objectViewer）が必要です。書き込みには、Storage Object Creator ロール （roles/storage.objectCreator）またはStorage Object Admin ロール （roles/storage.admin）が必要です。
- BigQuery: 読み取りにはBigQuery Data Viewer ロール （roles/bigquery.dataViewer）が必要です。書き込みには、BigQuery Data Editor ロール （roles/bigquery.dataEditor）が必要です。
ロギング権限: サービスアカウントには、Cloud Logging にログを書き込む権限を持つロールが必要です。通常、Logging Writer ロール （roles/logging.logWriter）で十分です。

トラブルシューティングのヒント:

バッチまたはセッションサービスアカウントを特定します。指定しない場合は、 Compute Engine のデフォルトサービスアカウントがデフォルトになります。
コンソールの [IAM と管理] > [IAM] ページに移動し、バッチまたはセッションのサービスアカウントを見つけて、オペレーションに必要なロールがあることを確認します。 Google Cloud 不足しているロールを付与します。

割り当て不足

Managed Service for Apache Spark やその他の Google Cloud リソースのプロジェクトまたはリージョン固有の割り当てを超えると、新しいバッチやセッションを開始できなくなることがあります。

トラブルシューティングのヒント:

Managed Service for Apache Spark の割り当てページで、同時バッチ、DCU、シャッフルストレージの上限を確認します。
- gcloud compute quotas list コマンドを使用して、プロジェクトとリージョンの現在の使用量と上限を表示することもできます。
```
gcloud compute quotas list --project=PROJECT_ID --filter="service:dataproc.googleapis.com"
```
割り当て上限に繰り返し達する場合は、割り当ての増加をコンソールから Google Cloud リクエストすることを検討してください。

ネットワーク構成に関する問題

VPC 構成、プライベート Google アクセス、ファイアウォールルールなどのネットワーク設定が正しくないと、Spark ドライバが初期化されたり、必要なサービスに接続できなくなったりすることがあります。

トラブルシューティングのヒント:

バッチまたはセッションに指定された VPC ネットワークとサブネットが正しく構成され、十分な IP アドレスが使用可能であることを確認します。
バッチまたはセッションで公共のインターネットを経由せずに Google API とサービスにアクセスする必要がある場合は、サブネットでプライベート Google アクセスが有効になっていることを確認します。
Managed Service for Apache Spark バッチワークロードとインタラクティブセッションは、内部 IP アドレスのみを持つ VM と、セッションサブネットで限定公開の Google アクセスが自動的に有効になっているリージョンサブネットで実行されます。
VPC ファイアウォールルールを確認して、Spark アプリケーションに必要な内部通信や Google API または外部サービスへの下り（外向き）が誤ってブロックされていないことを確認します。

無効な Spark プロパティまたはアプリケーションコードの問題

Spark プロパティ（特にドライバリソースに関連するプロパティ）の構成が誤っている場合や、Spark アプリケーションコードに問題がある場合は、起動に失敗することがあります。

トラブルシューティングのヒント:

spark.driver.memory と spark.driver.cores の値を確認します。これらの値が妥当な範囲内にあり、使用可能な DCU と一致していることを確認します。これらのプロパティの値が大きすぎると、リソースが枯渇し、初期化に失敗することがあります。デバッグを簡単にするため、不要な Spark プロパティや試験運用版の Spark プロパティを削除します。
「Hello World」Spark アプリケーションを実行して、問題が環境設定にあるのか、コードの複雑さやエラーが原因なのかを判断します。
バッチまたはセッションに指定されたすべてのアプリケーション JAR、Python ファイル、依存関係が Cloud Storage に正しく配置され、バッチまたはセッションのサービスアカウントからアクセスできることを確認します。

ログを確認する

バッチ作成の失敗を診断するうえで重要な手順は、Cloud Logging の詳細ログを確認することです。

[**Cloud Logging**] ページをコンソールで開きます。 Google Cloud
Managed Service for Apache Spark バッチまたはセッションでフィルタします。
1. [リソース] プルダウンで、Cloud Managed Service for Apache Spark Batch または Cloud Managed Service for Apache Spark Session を選択します。
2. 失敗したバッチまたはセッションの batch_id または session_id でフィルタします。 project_id と location（リージョン）でフィルタすることもできます。
jsonPayload.component="driver". を含むログエントリを探します。これらのログには、600 秒のタイムアウトが発生する前に、ドライバの初期化の失敗の原因を特定できる特定のエラーメッセージやスタックトレースが含まれていることがよくあります。

バッチとセッションの作成失敗のトラブルシューティング コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

バッチとセッションの起動失敗の原因とトラブルシューティングの手順

サービス アカウントの権限が不足している

割り当て不足

ネットワーク構成に関する問題

無効な Spark プロパティまたはアプリケーション コードの問題

ログを確認する

バッチとセッションの作成失敗のトラブルシューティング

サービスアカウントの権限が不足している

無効な Spark プロパティまたはアプリケーションコードの問題