"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark のパフォーマンスの強化

このドキュメントでは、Managed Service for Apache Spark の Spark パフォーマンスの向上を有効にして、コストを削減し、Managed Service for Apache Spark ジョブがより多くのデータをより迅速に処理する方法について説明します。

Managed Service for Apache Spark のパフォーマンスの向上には、次のものがあります。

Spark オプティマイザーの機能拡張:
- 作成されたオプティマイザールールで、Spark プランを改善
- Spark ジョブ内で使用する際の Managed Service for Apache Spark の BigQuery コネクタのパフォーマンスの向上
Spark Execution の機能拡張:
- Spark 実行エンジンの改善

Managed Service for Apache Spark のその他のパフォーマンスの向上: Managed Service for Apache Spark クラスタキャッシュをご覧ください。これにより、Cloud Storage 内のデータへのアクセス時間を短縮できます。

Spark のパフォーマンス向上は、クラスタまたは Spark ジョブで有効にできます。

クラスタで有効になっている Spark のパフォーマンス向上は、Managed Service for Apache Spark に送信された場合でも、クラスタに直接送信された場合でも、デフォルトでは、クラスタで実行されるすべての Spark ジョブに適用されます。
Spark のパフォーマンス向上は、Managed Service for Apache Spark に送信されるジョブで有効または無効にすることもできます。ジョブに適用される Spark パフォーマンス向上の設定は、指定されたジョブに対してクラスタレベルで設定された競合する設定をオーバーライドします。

料金

Spark のパフォーマンスの向上に追加料金はかかりません。Managed Service for Apache Spark の標準料金が適用されます。

考慮事項

Spark のパフォーマンスの向上では、次のプロパティなど、Spark プロパティが調整されます。

spark.sql.shuffle.partitions: Spark のパフォーマンス強化により、2.2 イメージバージョンクラスタではこのプロパティが 1000 に設定されます。この設定により、小さなジョブの速度が低下する可能性があります。
spark.dataproc.sql.catalog.file.index.stats.enabled: この設定では、Hive パーティション数が多すぎると、ドライバの OOM（メモリ不足）状態になる可能性があります。このプロパティを無効にすると、OOM 状態を修正できます。

クラスタ作成時に機能拡張を有効にする

コンソール、Google Cloud CLI、Dataproc API を使用して、イメージバージョン 2.0.69 以降、2.1.17 以降、2.2.0 以降のイメージリリースで Managed Service for Apache Spark クラスタを作成するときに、Managed Service for Apache Spark のパフォーマンスを向上できます。 Google Cloud

コンソール

コンソールで、[クラスタの作成] ページを開きます。 Google Cloud
[追加構成] をクリックしてセクションを開きます。
[カスタマイズとその他] を編集します。
[クラスタのプロパティ] セクションで、次のプロパティを追加します。
- Spark の最適化の機能拡張を有効にするには:
  1. [+ プロパティを追加] をクリックします。
  2. [プレフィックス] リストで [spark] を選択します。
  3. [キー] フィールドに「spark.dataproc.enhanced.optimizer.enabled」と入力し、[値] フィールドに「true」と入力します。
- Spark 実行の機能拡張を有効にするには:
  1. [+ プロパティを追加] をクリックします。
  2. [プレフィックス] リストで [spark] を選択します。
  3. [キー] フィールドに「spark.dataproc.enhanced.execution.enabled」と入力し、[値] フィールドに「true」と入力します。
他のクラスタフィールドを入力し、[クラスタを作成] をクリックします。

gcloud

ターミナルウィンドウまたは Cloud Shellで、次の gcloud dataproc clusters create コマンドをローカルに実行します。
```
gcloud dataproc clusters create CLUSTER_NAME \
    --project=PROJECT_ID \
    --region=REGION \
    --image-version=IMAGE \
    --properties=PROPERTIES
```
注:
- CLUSTER_NAME: クラスタ名。プロジェクト内で一意にする必要があります。名前は先頭を小文字にする必要があり、51 文字以下の小文字、数字、ハイフンを使用できます。末尾をハイフンにすることはできません。削除されたクラスタの名前は再利用できます。
- PROJECT_ID: クラスタに関連付けるプロジェクト。
- REGION: クラスタが配置される Compute Engine のリージョン（us-central1 など）。
  - オプションの --zone=ZONE フラグを追加して、指定されたリージョン内のゾーン（us-central1-a など）を指定できます。ゾーンを指定しない場合、 Managed Service for Apache Spark 自動ゾーンプレースメント機能は、指定されたリージョンのあるゾーンを選択します。
- IMAGE: Managed Service for Apache Spark のオプティマイザーと実行のパフォーマンスの向上は、Managed Service for Apache Spark イメージバージョン 2.0.69+ と 2.1.17+ 以降のリリースで利用できます。このフラグを省略すると、Managed Service for Apache Spark は、クラスタのデフォルトの Managed Service for Apache Spark イメージの最新のサブマイナーバージョンを選択します（デフォルトの Managed Service for Apache Spark イメージバージョンを参照）。
- PROPERTIES:
  - Spark 最適化の機能拡張を有効にするには、以下を指定します。
```
spark:spark.dataproc.enhanced.optimizer.enabled=true
```
  - Spark 実行の機能拡張を有効にするには、以下を指定します。
```
spark:spark.dataproc.enhanced.execution.enabled=true
```
  - Spark の最適化と実行の機能拡張を有効にするには、以下を指定します。
```
spark:spark.dataproc.enhanced.optimizer.enabled=true,spark:spark.dataproc.enhanced.execution.enabled=true
```

API

clusters.create リクエストの一部として、次の SoftwareConfig.properties を指定します。
- Spark 最適化の機能拡張を有効にするには、以下を指定します。
```
"spark:spark.dataproc.enhanced.optimizer.enabled": "true"
```
- Spark 実行の機能拡張を有効にするには、以下を指定します。
```
"spark:spark.dataproc.enhanced.execution.enabled": "true"
```
- Spark の最適化と実行の機能拡張を有効にするには、以下を指定します。
```
"spark:spark.dataproc.enhanced.optimizer.enabled": "true","spark:spark.dataproc.enhanced.execution.enabled": "true"
```

ジョブ送信時に機能拡張を有効または無効にする

コンソール、Google Cloud CLI、Dataproc API を使用して、Managed Service for Apache Spark に送信された Spark ジョブで Spark パフォーマンスの向上を有効または無効にできます。 Google Cloud

コンソール

コンソールで、 [ジョブ] ページを開きます。 Google Cloud
[**ジョブ**] ページで [**ジョブを送信**] をクリックし、ジョブの [**プロパティ**] セクションまでスクロールします。
1. Spark の最適化の機能拡張を有効にするには:
  1. [+ プロパティを追加] をクリックします。[キー] フィールドに「spark.dataproc.enhanced.optimizer.enabled」、[値] フィールドに「true」と入力します。
2. Spark 実行の機能拡張を有効にするには:
  1. [+ プロパティを追加] をクリックします。
  2. [キー] フィールドに「spark.dataproc.enhanced.execution.enabled」、[値] フィールドに「true」と入力します。
ジョブ送信の他のフィールドへの入力および確認を行い、[送信] をクリックします。

gcloud

ターミナルウィンドウまたは Cloud Shell で、次の gcloud dataproc jobs submit コマンドをローカルに実行します。
```
gcloud dataproc jobs submit SPARK_JOB_TYPE \
    --cluster=CLUSTER_NAME \
    --region=REGION \
    --properties=PROPERTIES
```
注:
- SPARK_JOB_TYPE: spark、pyspark、spark-sql または spark-r を指定します。
- CLUSTER_NAME: ジョブが実行されるジョブの名前。
- REGION: クラスタが配置されているリージョン。
- PROPERTIES:
  - Spark 最適化の機能拡張を有効にするには、以下を指定します。
```
spark.dataproc.enhanced.optimizer.enabled=true
```
  - Spark 実行の機能拡張を有効にするには、以下を指定します。
```
spark.dataproc.enhanced.execution.enabled=true
```
  - Spark の最適化と実行の機能拡張を有効にするには、以下を指定します。
```
spark.dataproc.enhanced.optimizer.enabled=true,spark.dataproc.enhanced.execution.enabled=true
```

API

jobs.submit リクエストの一部として、SparkJob、PySparkJob、SparkSqlJob または SparkRJob の次の properties を指定します。
- Spark 最適化の機能拡張を有効にするには、以下を指定します。
```
"spark.dataproc.enhanced.optimizer.enabled=true"
```
- Spark 実行の機能拡張を有効にするには、以下を指定します。
```
"spark.dataproc.enhanced.execution.enabled=true"
```
- Spark の最適化と実行の機能拡張を有効にするには、以下を指定します。
```
"spark.dataproc.enhanced.execution.enabled=true,spark.dataproc.enhanced.optimizer.enabled=true"
```

Managed Service for Apache Spark のパフォーマンスの強化 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

料金

考慮事項

クラスタ作成時に機能拡張を有効にする

コンソール

gcloud

API

ジョブ送信時に機能拡張を有効または無効にする

コンソール

gcloud

API

Managed Service for Apache Spark のパフォーマンスの強化