Google Cloud Apache Spark 向け Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングや管理を行うことなく、Spark ワークロードを実行できます。Apache Spark 向け Serverless ワークロードを実行するには、 バッチ ワークロードとインタラクティブ セッションの 2 つの方法があります。
バッチ ワークロード
コンソール、Google Cloud CLI、または Dataproc API を使用して、Apache Spark 向け Serverless サービスにバッチ ワークロードを送信します。Google Cloud このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Apache Spark 向け Serverless の料金は 、ワークロードが実行されている時間に対してのみ適用されます。
バッチ ワークロードの機能
次の Apache Spark 向け Serverless バッチ ワークロード タイプを実行できます。
- PySpark
- Spark SQL
- Spark R
- Spark(Java または Scala)
Apache Spark 向け Serverless バッチ ワークロードを送信するときに、Spark プロパティ を指定できます。
バッチ ワークロードをスケジュールする
Airflow バッチ演算子を使用して、Spark バッチ ワークロードを Airflow または Cloud Composer ワークフローの一部としてスケジューリングできます。詳細については、 Cloud Composer で Apache Spark 向け Serverless ワークロードを実行するをご覧ください。
始める
始めるには、 Apache Spark バッチ ワークロードを実行するをご覧ください。
インタラクティブ セッション
Apache Spark 向け Serverless インタラクティブ セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の 方法で作成できます。
BigQuery Studio ノートブックで PySpark コードを実行します。 BigQuery Python ノートブックを開いて、 Spark Connect ベースの Apache Spark 向け Serverless インタラクティブ セッションを作成します。各 BigQuery ノートブックには、アクティブな Apache Spark 向け Serverless セッションを 1 つだけ関連付けることができます。
Dataproc JupyterLab プラグイン を使用して、作成 および管理するテンプレートから複数の Jupyter ノートブック セッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、JupyterLab ランチャー ページに、さまざまな Spark カーネル構成 に対応するさまざまなカードが表示されます。カードをクリックして Apache Spark 向け Serverless ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。
Dataproc JupyterLab プラグインを使用すると、JupyterLab ランチャー ページで次の操作を行うこともできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- と Spark ログを表示する。 Google Cloud
セキュリティのコンプライアンス
Apache Spark 向け Serverless は、Dataproc が準拠しているすべての データ所在地、 CMEK、 VPC-SC、 その他のセキュリティ要件に準拠しています。