"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cloud Profiler

Cloud Profiler を使用すると、アプリケーションの CPU 使用率とメモリ割り当ての情報が継続的に収集、報告されます。

要件:

Profiler では、Managed Service for Apache Spark Hadoop と Spark のジョブタイプ（Spark、PySpark、SparkSql、SparkR）のみがサポートされています。
Profiler がデータを収集してプロジェクトにアップロードできるようになるには、ジョブが 3 分以上実行される必要があります。

Managed Service for Apache Spark は、cloud.profiler.enable と他の cloud.profiler.* プロパティを認識（プロファイラオプションを参照）し、適切なプロファイラ JVM オプションを次の構成に追加します。

Spark: spark.driver.extraJavaOptions および spark.executor.extraJavaOptions
MapReduce: mapreduce.task.profile と他の mapreduce.task.profile.* プロパティ

プロファイリングの有効化

Managed Service for Apache Spark と Hadoop のジョブで Profiler を有効にして使用するには、次の手順を完了します。

プロファイラを有効にする
サービスアカウントスコープを monitoring に設定して Managed Service for Apache Spark クラスタを作成し、クラスタがプロファイラサービスと通信できるようにします。
カスタム VM サービスアカウントを使用している場合は、カスタム VM サービスアカウントに Cloud Profiler エージェントのロールを付与します。このロールには、プロファイラに必要な権限が含まれています。

gcloud

gcloud dataproc clusters create cluster-name \
    --scopes=cloud-platform \
    --region=region \
    other args ...

プロファイラオプションを指定して Managed Service for Apache Spark ジョブを送信する

次の 1 つ以上のプロファイラオプションを使用して、Spark ジョブまたは Hadoop ジョブを送信します。

オプション	説明	値	必須 / 省略可	デフォルト	メモ
`cloud.profiler.enable`	ジョブのプロファイリングを有効にする	`true` または `false`	必須	`false`
`cloud.profiler.name`	Profiler Service でプロファイルを作成するときに使用する名前	`profile-name`	省略可	Managed Service for Apache Spark ジョブの UUID
`cloud.profiler.service.version`	プロファイラの結果を識別するための、ユーザー指定の文字列。	`Profiler Service Version`	省略可	Managed Service for Apache Spark ジョブの UUID
`mapreduce.task.profile.maps`	プロファイリングするマップタスクの数値範囲（例: 最大 100 の場合は「0-100」を指定）	`number range`	オプション	0-10000	Hadoop Mapreduce ジョブにのみ適用する
`mapreduce.task.profile.reduces`	プロファイリングするレデューサタスクの数値範囲（例: 最大 100 の場合は「0-100」を指定）	`number range`	オプション	0-10000	Hadoop Mapreduce ジョブにのみ適用する

PySpark の例

Google Cloud CLI

PySpark ジョブの送信とプロファイリングの例:

gcloud dataproc jobs submit pyspark python-job-file \
    --cluster=cluster-name \
    --region=region \
    --properties=cloud.profiler.enable=true,cloud.profiler.name=profiler_name,cloud.profiler.service.version=version \
    --  job args

次の 2 つのプロファイルが作成されます。

profiler_name-driver は、Spark ドライバタスクをプロファイリングします
profiler_name-executor は、Spark エグゼキュータタスクをプロファイリングします

たとえば、profiler_name が「spark_word_count_job」の場合、spark_word_count_job-driver プロファイルと spark_word_count_job-executor プロファイルが作成されます。

Hadoop の例

gcloud CLI

Hadoop（TeraGen MapReduce）ジョブの送信とプロファイリングの例:

gcloud dataproc jobs submit hadoop \
    --cluster=cluster-name \
    --region=region \
    --jar=jar-file \
    --properties=cloud.profiler.enable=true,cloud.profiler.name=profiler_name,cloud.profiler.service.version=version \
    --  teragen 100000 gs://bucket-name

プロファイルを表示する

Google Cloud コンソールの Profiler でプロファイルを表示します。

次のステップ

Monitoring のドキュメントをご覧ください。
Logging のドキュメントを確認する
Google Cloud Observability を確認する

Cloud Profiler コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。