このページは Cloud Translation API によって翻訳されました。

Lightning Engine で Google Cloud Apache Spark 向け Serverless を高速化する

このドキュメントでは、Lightning Engine を有効にして、Apache Spark 向け Serverless のバッチワークロードとインタラクティブセッションを高速化する方法について説明します。

概要

Lightning Engine は、マルチレイヤの最適化エンジンを搭載した高性能のクエリアクセラレータです。このエンジンは、クエリや実行の最適化などの従来の最適化手法と、ファイルシステムレイヤやデータアクセスコネクタでのキュレートされた最適化の両方を実行します。

次の図に示すように、Lightning Engine は TPC-H のようなワークロード（10 TB データセットサイズ）で Spark クエリの実行パフォーマンスを高速化します。

詳細については、Lightning Engine のご紹介 - Apache Spark を次世代のパフォーマンスにをご覧ください。

Lightning Engine の利用状況

Lightning Engine は、一般提供されている Apache Spark 向け Serverless のサポート対象ランタイム（現在のランタイムは 1.2、2.2、2.3。Spark ランタイム 3.0 では使用できません）で使用できます。
Lightning Engine は、Apache Spark 向け Serverless のプレミアム料金ティアでのみ使用できます。
- バッチワークロード: Lightning Engine は、プレミアムティアのバッチワークロードで自動的に有効になります。このため、ご対応は不要です。
- インタラクティブセッション: Lightning Engine は、インタラクティブセッションではデフォルトで有効になっていません。有効にするには、Lightning Engine を有効にするをご覧ください。
- セッションテンプレート: セッションテンプレートでは、Lightning Engine はデフォルトで有効になっていません。有効にするには、Lightning Engine を有効にするをご覧ください。

Lightning Engine を有効にする

以降のセクションでは、Apache Spark 用サーバーレスのバッチワークロード、セッションテンプレート、インタラクティブセッションで Lightning エンジンを有効にする方法について説明します。

バッチワークロード

バッチワークロードで Lightning Engine を有効にする

Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、バッチワークロードで Lightning Engine を有効にできます。

コンソール

Google Cloud コンソールを使用して、バッチワークロードで Lightning Engine を有効にします。

Google Cloud コンソールで次の操作を行います。
1. Dataproc バッチに移動します。
2. [作成] をクリックして、[バッチを作成] ページを開きます。
次のフィールドを選択して入力します。
- コンテナ:
  - ランタイムバージョン: 1.2、2.2、2.3 以降の major.minor バージョン番号を選択します。サポートされている Apache Spark 向け Serverless ランタイムバージョンをご覧ください。
- Tier の構成:
  - [Premium] を選択します。これにより、「LIGHTNING ENGINE を有効にして Spark のパフォーマンスを向上させる」が自動的に有効になり、チェックされます。
  プレミアムティアを選択すると、[ドライバコンピューティングティア] と [エグゼキュータコンピューティングティア] が Premium に設定されます。これらのプレミアムティアのコンピューティング設定は自動的に設定され、3.0 より前のランタイムを使用するバッチではオーバーライドできません。
  
  ドライバディスクのティアとエグゼキュータディスクのティアを Premium に構成するか、デフォルトの Standard ティア値のままにします。プレミアムディスク階層を選択した場合は、ディスクサイズを選択する必要があります。詳細については、リソース割り当てプロパティをご覧ください。
- プロパティ: 省略可: ネイティブクエリ実行ランタイムを選択する場合は、次の Key（プロパティ名）と Value のペアを入力します。
  
  キー値
  
  spark.dataproc.lightningEngine.runtime 先住民
  
  ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。
他のバッチワークロードの設定を入力、選択、確認します。Spark バッチワークロードを送信するをご覧ください。
[送信] をクリックして、Spark バッチワークロードを実行します。

キー	値
`spark.dataproc.lightningEngine.runtime`	先住民

gcloud

次の gcloud CLI gcloud dataproc batches submit spark コマンドフラグを設定して、バッチワークロードで Lightning Engine を有効にします。

gcloud dataproc batches submit spark \
    --project=PROJECT_ID \
    --region=REGION \
    --properties=dataproc.tier=premium \
    OTHER_FLAGS_AS_NEEDED

注:

PROJECT_ID: 実際の Google Cloud プロジェクト ID。プロジェクト ID は、 Google Cloud コンソールのダッシュボードの [プロジェクト情報] セクションに表示されます。
REGION: ワークロードを実行できる利用可能な Compute Engine リージョン。
--properties=dataproc.tier=premium。プレミアムティアを設定すると、バッチワークロードに次のプロパティが自動的に設定されます。
- spark.dataproc.engine=lightningEngine は、バッチワークロードに Lightning Engine を選択します。
- spark.dataproc.driver.compute.tier と spark.dataproc.executor.compute.tier は premium に設定されます（リソース割り当てプロパティをご覧ください）。3.0 より前のランタイムを使用するバッチでは、プレミアムティアのコンピューティング設定を自動的に設定することはできません。
その他のプロパティ
- ネイティブクエリエンジン: spark.dataproc.lightningEngine.runtime=native ネイティブクエリ実行ランタイムを選択する場合は、このプロパティを追加します。
  ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。
- ディスクの階層とサイズ: デフォルトでは、ドライバとエグゼキュータのディスクサイズは standard の階層とサイズに設定されています。プロパティを追加して、premium ディスクの階層とサイズ（375 GiB の倍数）を選択できます。
  詳細については、リソース割り当てプロパティをご覧ください。
OTHER_FLAGS_AS_NEEDED: Spark バッチワークロードを送信するをご覧ください。

API

バッチワークロードで Lightning Engine を有効にするには、batches.create リクエストの一部として、RuntimeConfig.properties に "dataproc.tier":"premium" を追加します。プレミアムティアを設定すると、バッチワークロードに次のプロパティが自動的に設定されます。

spark.dataproc.engine=lightningEngine は、バッチワークロードに Lightning Engine を選択します。
spark.dataproc.driver.compute.tier と spark.dataproc.executor.compute.tier は premium に設定されます（リソース割り当てプロパティをご覧ください）。3.0 より前のランタイムを使用するバッチでは、プレミアムティアのコンピューティング設定を自動的に設定することはできません。

その他 RuntimeConfig.properties:

ネイティブクエリエンジン: spark.dataproc.lightningEngine.runtime:native。ネイティブクエリ実行ランタイムを選択する場合は、このプロパティを追加します。
ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。
ディスクの階層とサイズ: デフォルトでは、ドライバとエグゼキュータのディスクサイズは standard の階層とサイズに設定されています。プロパティを追加して、premium ティアとサイズ（375 GiB の倍数）を選択できます。
詳細については、リソース割り当てプロパティをご覧ください。

他のバッチワークロード API フィールドを設定するには、Spark バッチワークロードを送信するをご覧ください。

セッションテンプレート

セッションテンプレートで Lightning Engine を有効にする

Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、Jupyter セッションまたは Spark Connect セッションのセッションテンプレートで Lightning Engine を有効にできます。

コンソール

Google Cloud コンソールを使用して、バッチワークロードで Lightning Engine を有効にします。

Google Cloud コンソールで次の操作を行います。
1. Dataproc セッションテンプレートに移動します。
2. [作成] をクリックして、[セッションテンプレートの作成] ページを開きます。
次のフィールドを選択して入力します。
- セッションテンプレート情報:
  - [Lightning Engine を有効にして Spark のパフォーマンスを向上させる] を選択します。
- 実行構成:
  - ランタイムバージョン: 1.2、2.2、2.3 以降の major.minor バージョン番号を選択します。サポートされている Apache Spark 向け Serverless ランタイムバージョンをご覧ください。
- プロパティ: 次の Key（プロパティ名）と Value のペアを入力して、プレミアムティアを選択します。
  
  キー値
  
  dataproc.tier プレミアム
  
  spark.dataproc.engine lightningEngine
  
  省略可: 次の Key（プロパティ名）と Value のペアを入力して、ネイティブクエリ実行ランタイムを選択します。
  
  キー値
  
  spark.dataproc.lightningEngine.runtime native
  
  ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。
他のセッションテンプレートの設定を入力、選択、または確認します。セッションテンプレートを作成するをご覧ください。
[送信] をクリックしてセッションテンプレートを作成します。

キー	値
`dataproc.tier`	プレミアム
`spark.dataproc.engine`	lightningEngine

キー	値
`spark.dataproc.lightningEngine.runtime`	`native`

gcloud

gcloud CLI を使用して、Apache Spark 用 Serverless セッションテンプレートを直接作成することはできません。代わりに、gcloud beta dataproc session-templates import コマンドを使用して既存のセッションテンプレートをインポートし、インポートしたテンプレートを編集して Lightning Engine と必要に応じてネイティブクエリランタイムを有効にしてから、gcloud beta dataproc session-templates export コマンドを使用して編集したテンプレートをエクスポートします。

API

セッションテンプレートで Lightning Engine を有効にするには、sessionTemplates.create リクエストの一部として、RuntimeConfig.properties に「dataproc.tier」:「premium」と「spark.dataproc.engine」:「lightningEngine」を追加します。

その他 RuntimeConfig.properties:

ネイティブクエリエンジン: spark.dataproc.lightningEngine.runtime:native: このプロパティを RuntimeConfig.properties に追加して、ネイティブクエリ実行ランタイムを選択します。
ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。

他のセッションテンプレート API フィールドを設定するには、セッションテンプレートを作成するをご覧ください。

インタラクティブセッション

インタラクティブセッションで Lightning Engine を有効にする

Google Cloud CLI または Dataproc API を使用して、Apache Spark 用 Serverless のインタラクティブセッションで Lightning Engine を有効にできます。BigQuery Studio ノートブックのインタラクティブセッションで Lightning Engine を有効にすることもできます。

gcloud

次の gcloud CLI gcloud beta dataproc sessions create spark コマンドフラグを設定して、インタラクティブセッションで Lightning Engine を有効にします。

gcloud beta dataproc sessions create spark \
    --project=PROJECT_ID \
    --location=REGION \
    --properties=dataproc.tier=premium,spark.dataproc.engine=lightningEngine \
    OTHER_FLAGS_AS_NEEDED

注:

PROJECT_ID: 実際の Google Cloud プロジェクト ID。プロジェクト ID は、 Google Cloud コンソールのダッシュボードの [プロジェクト情報] セクションに表示されます。
REGION: ワークロードを実行できる利用可能な Compute Engine リージョン。
--properties=dataproc.tier=premium,spark.dataproc.engine=lightningEngine。これらのプロパティにより、セッションで Lightning Engine が有効になります。
その他のプロパティ:
- ネイティブクエリエンジン: spark.dataproc.lightningEngine.runtime=native: このプロパティを追加して、ネイティブクエリ実行ランタイムを選択します。
  ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。
OTHER_FLAGS_AS_NEEDED: インタラクティブセッションを作成するをご覧ください。

API

セッションで Lightning Engine を有効にするには、sessions.create リクエストの一部として、RuntimeConfig.properties に「dataproc.tier」:「premium」と「spark.dataproc.engine」:「lightningEngine」を追加します。

その他 RuntimeConfig.properties:

* ネイティブクエリエンジン: spark.dataproc.lightningEngine.runtime:native: ネイティブクエリ実行ランタイムを選択する場合は、このプロパティを RuntimeConfig.properties に追加します。

ネイティブクエリ実行を有効にするために以前使用されていた spark.dataproc.runtimeEngine=native プロパティは非推奨になりました。3.0+ ランタイム以降ではサポートされていません。

他のセッションテンプレート API フィールドを設定するには、インタラクティブセッションを作成するをご覧ください。

BigQuery ノートブック

Lightning Engine は、BigQuery Studio PySpark ノートブックでセッションを作成するときに有効にできます。

from google.cloud.dataproc_spark_connect import DataprocSparkSession
from google.cloud.dataproc_v1 import Session
session = Session()

# Enable Lightning Engine.
session.runtime_config.properties["dataproc.tier"] = "premium"
session.runtime_config.properties["spark.dataproc.engine"] = "lightningEngine"

# Enable THE Native Query Execution runtime.
session.runtime_config.properties["spark.dataproc.lightningEngine.runtime"] = "native"

# Create the Spark session.
spark = (
   DataprocSparkSession.builder
     .appName("APP_NAME")
     .dataprocSessionConfig(session)
     .getOrCreate())

# Add Spark application code here:

Lightning Engine の設定を確認する

Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、バッチワークロード、セッションテンプレート、またはインタラクティブセッションの Lightning Engine 設定を確認できます。

バッチワークロード

バッチの階層が premium に設定され、エンジンが Lightning Engine に設定されていることを確認するには:
- Google Cloud コンソール: [バッチ] ページで、バッチの [階層] 列と [エンジン] 列を確認します。[バッチ ID] をクリックして、バッチの詳細ページでこれらの設定を表示することもできます。
- gcloud CLI: gcloud dataproc batches describe コマンドを実行します。
- API: batches.get リクエストを発行します。

セッションテンプレート

セッションテンプレートの engine が Lightning Engine に設定されていることを確認するには:
- Google Cloud コンソール: [セッションテンプレート] ページの [エンジン] 列で、テンプレートを確認します。セッションテンプレートの [名前] をクリックして、セッションテンプレートの詳細ページでこの設定を表示することもできます。
- gcloud CLI: gcloud beta dataproc session-templates describe コマンドを実行します。
- API: sessionTemplates.get リクエストを発行します。

インタラクティブセッション

インタラクティブセッションの場合、エンジンは Lightning Engine に設定されます。
- Google Cloud コンソール: [インタラクティブセッション] ページで、テンプレートの [エンジン] 列を確認します。[インタラクティブセッション ID] をクリックすると、セッションテンプレートの詳細ページでこの設定を表示することもできます。
- gcloud CLI: gcloud beta dataproc sessions describe コマンドを実行します。
- API: sessions.get リクエストを発行します。

ネイティブクエリの実行

ネイティブクエリ実行（NQE）は、Google ハードウェア向けに設計された Apache Gluten と Velox に基づくネイティブな実装によってパフォーマンスを向上させる Lightning Engine のオプション機能です。

ネイティブクエリ実行ランタイムには、既存の Spark 構成を変更することなく、オフヒープメモリとオンヒープメモリを動的に切り替えるための統合メモリ管理が含まれています。NQE は、演算子、関数、Spark データ型への対応を拡張しているほか、ネイティブエンジンを活用してオペレーションのプッシュダウンを最適化する機会を自動的に特定するインテリジェンスも備えています。

ネイティブクエリ実行ワークロードを特定する

ネイティブクエリ実行は、次のようなシナリオで使用します。

Parquet ファイルと ORC ファイルからデータを読み取る Spark Dataframe API、Spark Dataset API、Spark SQL クエリ。出力ファイル形式は、ネイティブクエリ実行のパフォーマンスに影響しません。
ネイティブクエリ実行の認定ツールで推奨されるワークロード。

次のデータ型の入力があるワークロードでは、ネイティブクエリの実行はおすすめしません。

バイト: ORC と Parquet
タイムスタンプ: ORC
構造体、配列、マップ: Parquet

ネイティブクエリ実行の制限事項

次のシナリオでネイティブクエリ実行を有効にすると、例外、Spark の非互換性、ワークロードのデフォルトの Spark エンジンへのフォールバックが発生する可能性があります。

フォールバック

次の実行でのネイティブクエリの実行により、ワークロードが Spark 実行エンジンにフォールバックし、回帰または失敗が発生する可能性があります。

ANSI: ANSI モードが有効になっている場合、実行は Spark にフォールバックします。
大文字と小文字を区別するモード: ネイティブクエリ実行は、Spark のデフォルトの大文字と小文字を区別しないモードのみをサポートします。大文字と小文字を区別するモードが有効になっている場合、正しくない結果が返されることがあります。
パーティション分割テーブルのスキャン: ネイティブクエリ実行は、パスにパーティション情報が含まれている場合にのみパーティション分割テーブルのスキャンをサポートします。それ以外の場合、ワークロードは Spark 実行エンジンにフォールバックします。

互換性のない動作

次の場合は、ネイティブクエリ実行を使用すると、互換性のない動作や誤った結果が生じる可能性があります。

JSON 関数: ネイティブクエリ実行では、単一引用符ではなく二重引用符で囲まれた文字列がサポートされます。単一引用符を使用すると、正しくない結果が返されます。get_json_object 関数でパスに「*」を使用すると、NULL が返されます。
Parquet 読み取り構成:
- ネイティブクエリの実行では、spark.files.ignoreCorruptFiles が true に設定されている場合でも、デフォルトの false 値に設定されているとみなされます。
- ネイティブクエリ実行は spark.sql.parquet.datetimeRebaseModeInRead を無視し、Parquet ファイルの内容のみを返します。以前のハイブリッド（ユリウス暦とグレゴリオ暦）カレンダーと先発グレゴリオ暦カレンダーの違いは考慮されません。Spark の結果は異なる場合があります。
NaN: サポートされていません。たとえば、数値の比較で NaN を使用すると、予期しない結果が生じる可能性があります。
Spark カラム型読み取り: Spark カラム型ベクトルがネイティブクエリ実行と互換性がないため、致命的なエラーが発生する可能性があります。
スピル: シャッフルパーティションが大きな数に設定されている場合、ディスクへのスピル機能が OutOfMemoryException をトリガーすることがあります。この例外が発生した場合は、パーティションの数を減らすことで例外を解消できます。

Lightning Engine で Google Cloud Apache Spark 向け Serverless を高速化する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

Lightning Engine の利用状況

Lightning Engine を有効にする

バッチ ワークロード

バッチ ワークロードで Lightning Engine を有効にする

コンソール

gcloud

API

セッション テンプレート

セッション テンプレートで Lightning Engine を有効にする

コンソール

gcloud

API

インタラクティブ セッション

インタラクティブ セッションで Lightning Engine を有効にする

gcloud

API

BigQuery ノートブック

Lightning Engine の設定を確認する

バッチ ワークロード

セッション テンプレート

インタラクティブ セッション

ネイティブ クエリの実行

ネイティブ クエリ実行ワークロードを特定する

ネイティブ クエリ実行の制限事項

フォールバック

互換性のない動作

Lightning Engine で Google Cloud Apache Spark 向け Serverless を高速化する

バッチワークロード

バッチワークロードで Lightning Engine を有効にする

セッションテンプレート

セッションテンプレートで Lightning Engine を有効にする

インタラクティブセッション

インタラクティブセッションで Lightning Engine を有効にする

バッチワークロード

セッションテンプレート

インタラクティブセッション

ネイティブクエリの実行

ネイティブクエリ実行ワークロードを特定する

ネイティブクエリ実行の制限事項