Google Cloud Apache Spark 用サーバーレスを使用すると、独自の Dataproc クラスタのプロビジョニングと管理を行うことなく、Spark ワークロードを実行できます。Apache Spark 向け Serverless ワークロードを実行するには、バッチ ワークロードとインタラクティブ セッションの 2 つの方法があります。
バッチ ワークロード
Google Cloud コンソール、Google Cloud CLI、または Dataproc API を使用して、Apache Spark 向け Serverless サービスにバッチ ワークロードを送信します。このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Serverless for Apache Spark の料金は、ワークロードが実行されている時間に対してのみ適用されます。
バッチ ワークロードの機能
次の Apache Spark 向け Serverless バッチ ワークロード タイプを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
Apache Spark 向け Serverless バッチ ワークロードを送信するときに、Spark プロパティを指定できます。
バッチ ワークロードをスケジュールする
Airflow バッチ オペレータを使用して、Airflow または Cloud Composer ワークフローの一部として Spark バッチ ワークロードをスケジューリングできます。詳細については、Cloud Composer で Apache Spark 用サーバーレス ワークロードを実行するをご覧ください。
使ってみる
開始するには、Apache Spark バッチ ワークロードを実行するをご覧ください。
インタラクティブ セッション
Serverless for Apache Spark インタラクティブ セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の方法で作成できます。
BigQuery Studio ノートブックで PySpark コードを実行する。BigQuery Python ノートブックを開いて、Spark Connect ベースの Apache Spark 向け Serverless インタラクティブ セッションを作成します。各 BigQuery ノートブックには、アクティブな Apache Spark 向け Serverless セッションを 1 つだけ関連付けることができます。
Dataproc JupyterLab プラグインを使用すると、作成および管理するテンプレートから複数の Jupyter ノートブック セッションを作成できます。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、さまざまな Spark カーネル構成に対応するさまざまなカードが JupyterLab ランチャー ページに表示されます。カードをクリックして Serverless for Apache Spark ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
Dataproc JupyterLab プラグインを使用すると、JupyterLab ランチャー ページで次の操作を行うこともできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- Google Cloud と Spark のログを表示する。
セキュリティ コンプライアンス
Serverless for Apache Spark は、Dataproc が準拠しているすべてのデータ所在地、CMEK、VPC-SC、その他のセキュリティ要件に準拠しています。