Managed Service for Apache Spark のサーバーレス デプロイを使用すると、独自の Managed Service for Apache Spark クラスタのプロビジョニングと管理を行うことなく、Spark ワークロードを実行できます。Managed Service for Apache Spark ワークロードを実行する方法は、バッチ ワークロードとインタラクティブ セッションの 2 つがあります。
バッチ ワークロード
Google Cloud コンソール、Google Cloud CLI、または REST API を使用して、バッチ ワークロードを送信します。Managed Service for Apache Spark は、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。料金は、ワークロードが実行されている時間に対してのみ適用されます。
バッチ ワークロードの機能
次のバッチ ワークロード タイプを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
バッチ ワークロードを送信するときに、Spark のプロパティを指定できます。
バッチ ワークロードをスケジュールする
Airflow バッチ オペレータを使用して、Airflow または Cloud Composer ワークフローの一部として Spark バッチ ワークロードをスケジューリングできます。詳細については、Cloud Composer で Managed Service for Apache Spark ワークロードを実行するをご覧ください。
使ってみる
開始するには、Apache Spark バッチ ワークロードを実行するをご覧ください。
インタラクティブ セッション
インタラクティブ セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の方法で作成できます。
BigQuery Studio ノートブックで PySpark コードを実行する。BigQuery Python ノートブックを開いて、Spark Connect ベースの Managed Service for Apache Spark インタラクティブ セッションを作成します。各 BigQuery ノートブックには、アクティブな Managed Service for Apache Spark セッションを 1 つだけ関連付けることができます。
JupyterLab プラグインを使用すると、作成および管理するテンプレートから複数の Jupyter ノートブック セッションを作成できます。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、さまざまな Spark カーネル構成に対応するさまざまなカードが JupyterLab ランチャー ページに表示されます。カードをクリックして Managed Service for Apache Spark ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
JupyterLab プラグインを使用すると、JupyterLab ランチャー ページで次の操作を行うこともできます。
- Managed Service for Apache Spark クラスタを作成する。
- クラスタにジョブを送信します。
- Google Cloud と Spark のログを表示する。
セキュリティ コンプライアンス
Managed Service for Apache Spark は、Managed Service for Apache Spark が準拠しているすべてのデータ所在地、CMEK、VPC-SC、その他のセキュリティ要件に準拠しています。