Managed Service for Apache Spark サーバーレスを使用すると、独自のクラスタのプロビジョニングと管理を行うことなく、Spark ワークロードを実行できます。 Managed Service for Apache Spark ワークロードを実行するには、バッチ ワークロードとインタラクティブ セッションの 2 つの方法があります。
バッチ ワークロード
コンソール、Google Cloud CLI、REST API を使用してバッチ ワークロードを送信します。Google Cloud Managed Service for Apache Spark は、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。 料金 は、ワークロードが実行されている時間に対してのみ適用されます。
バッチ ワークロードの機能
次のバッチ ワークロード タイプを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
バッチ ワークロードを送信するときに、Spark のプロパティ を指定できます。
バッチ ワークロードをスケジュールする
Airflow詳細については、 Managed Airflow で Managed Service for Apache Spark サーバーレス ワークロードを実行するをご覧ください。
使ってみる
始めるには、 Apache Spark バッチ ワークロードを実行するをご覧ください。
インタラクティブ セッション
インタラクティブ セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは、次の方法で作成できます。
BigQuery Studio ノートブックで PySpark コードを実行します。 BigQuery Python ノートブックを開いて、 Spark Connect ベースの インタラクティブ セッションを作成します。各 BigQuery ノートブックには、アクティブなセッションを 1 つだけ関連付けることができます。
JupyterLab プラグイン を使用して、作成 および管理するテンプレートから複数の Jupyter ノートブック セッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、JupyterLab ランチャー ページに、さまざまな Spark カーネル構成に対応するさまざまなカードが表示されます。カードをクリックして Managed Service for Apache Spark ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
JupyterLab プラグインを使用すると、JupyterLab ランチャー ページで次の操作を行うこともできます。
- Managed Service for Apache Spark クラスタを作成する。
- クラスタにジョブを送信する。
- と Spark のログを表示する。 Google Cloud
セキュリティ コンプライアンス
Managed Service for Apache Spark は、Managed Service for Apache Spark が準拠しているすべての データ所在地、 CMEK、 VPC-SC、 その他のセキュリティ要件に準拠しています。