このページは Cloud Translation API によって翻訳されました。

Apache Spark 用 Google Cloud Serverless のリソース使用量をプロファイリングする

このドキュメントでは、 Google Cloud Apache Spark 向け Serverless のリソース使用量をプロファイリングする方法について説明します。Cloud Profiler を使用すると、アプリケーションの CPU 使用率とメモリ割り当ての情報が継続的に収集、報告されます。次の表に示すプロファイリングプロパティを使用して、バッチを送信するか、セッションワークロードを作成するときにプロファイリングを有効にできます。Google Cloud Apache Spark 向け Serverless は、関連する JVM オプションをワークロードに使用される spark.driver.extraJavaOptions 構成と spark.executor.extraJavaOptions 構成に追加します。

オプション	説明	値	デフォルト
`dataproc.profiling.enabled`	ワークロードのプロファイリングを有効にする	`true` または `false`	`false`
`dataproc.profiling.name`	Profiler サービスのプロファイル名	`PROFILE_NAME`	spark-`WORKLOAD_TYPE`-`WORKLOAD_ID`。ここで、 WORKLOAD_TYPE が `batch` または `session` に設定されている WORKLOAD_ID が `batchId` または `sessionId` に設定されています

注:

Apache Spark 用サーバーレスは、Profiler バージョンをバッチ UUID またはセッション UUID に設定します。
Profiler は、Spark、PySpark、SparkSql、SparkR の Spark ワークロードタイプをサポートしています。
Profiler がデータを収集してプロジェクトにアップロードできるようにするには、ワークロードが 3 分以上実行される必要があります。
SparkConf を作成し、コードで extraJavaOptions を設定することで、ワークロードとともに送信されたプロファイリングオプションをオーバーライドできます。ワークロードの送信時に extraJavaOptions プロパティを設定しても、ワークロードとともに送信されたプロファイリングオプションはオーバーライドされません。

バッチ送信で使用される Profiler オプションの例については、PySpark バッチワークロードの例をご覧ください。

プロファイリングの有効化

ワークロードでプロファイリングを有効にするには、次の操作を行います。

Profiler を有効にする
カスタム VM サービスアカウントを使用している場合は、カスタム VM サービスアカウントに Cloud Profiler エージェントのロールを付与します。このロールには、Profiler に必要な権限が含まれています。
バッチワークロードの送信時またはセッションテンプレートの作成時に、プロファイリングプロパティを設定します。

PySpark バッチワークロードの例

次の例では、gcloud CLI を使用して、プロファイリングが有効になっている PySpark バッチワークロードを送信します。

gcloud dataproc batches submit pyspark PYTHON_WORKLOAD_FILE \
    --region=REGION \
    --properties=dataproc.profiling.enabled=true,dataproc.profiling.name=PROFILE_NAME \
    --  other args

次の 2 つのプロファイルが作成されます。

PROFILE_NAME-driver は、Spark ドライバタスクをプロファイリングします。
PROFILE_NAME-executor は、Spark エグゼキュータタスクをプロファイリングします。

プロファイルを表示する

Google Cloud コンソールの Profiler でプロファイルを表示できます。

次のステップ

Apache Spark 用サーバーレスワークロードのモニタリングとトラブルシューティングをご覧ください。

Apache Spark 用 Google Cloud Serverless のリソース使用量をプロファイリングする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

プロファイリングの有効化

PySpark バッチ ワークロードの例

プロファイルを表示する

次のステップ

Apache Spark 用 Google Cloud Serverless のリソース使用量をプロファイリングする

PySpark バッチワークロードの例