Serverless for Apache Spark の概要

Google Cloud Apache Spark 向け Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングや管理を行うことなく、Spark ワークロードを実行できます。Apache Spark 向け Serverless ワークロードを実行するには、バッチワークロードとインタラクティブセッションの 2 つの方法があります。

バッチワークロード

コンソール、Google Cloud CLI、または Dataproc API を使用して、Apache Spark 向け Serverless サービスにバッチワークロードを送信します。Google Cloud このサービスは、マネージドコンピューティングインフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Apache Spark 向け Serverless の料金は、ワークロードが実行されている時間に対してのみ適用されます。

バッチワークロードの機能

次の Apache Spark 向け Serverless バッチワークロードタイプを実行できます。

PySpark
Spark SQL
Spark R
Spark（Java または Scala）

Apache Spark 向け Serverless バッチワークロードを送信するときに、Spark プロパティを指定できます。

バッチワークロードをスケジュールする

Airflow バッチ演算子を使用して、Spark バッチワークロードを Airflow または Cloud Composer ワークフローの一部としてスケジューリングできます。詳細については、 Cloud Composer で Apache Spark 向け Serverless ワークロードを実行するをご覧ください。

始める

始めるには、 Apache Spark バッチワークロードを実行するをご覧ください。

インタラクティブセッション

Apache Spark 向け Serverless インタラクティブセッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブックセッションは次の方法で作成できます。

BigQuery Studio ノートブックで PySpark コードを実行します。 BigQuery Python ノートブックを開いて、 Spark Connect ベースの Apache Spark 向け Serverless インタラクティブセッションを作成します。各 BigQuery ノートブックには、アクティブな Apache Spark 向け Serverless セッションを 1 つだけ関連付けることができます。
Dataproc JupyterLab プラグインを使用して、作成および管理するテンプレートから複数の Jupyter ノートブックセッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、JupyterLab ランチャーページに、さまざまな Spark カーネル構成に対応するさまざまなカードが表示されます。カードをクリックして Apache Spark 向け Serverless ノートブックセッションを作成し、ノートブックでコードの記述とテストを開始します。

Dataproc JupyterLab プラグインを使用すると、JupyterLab ランチャーページで次の操作を行うこともできます。
- Dataproc on Compute Engine クラスタを作成する。
- Dataproc on Compute Engine クラスタにジョブを送信する。
- と Spark ログを表示する。 Google Cloud

セキュリティのコンプライアンス

Apache Spark 向け Serverless は、Dataproc が準拠しているすべてのデータ所在地、 CMEK、 VPC-SC、その他のセキュリティ要件に準拠しています。

Serverless for Apache Spark の概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

バッチ ワークロード

バッチ ワークロードの機能

バッチ ワークロードをスケジュールする

始める

インタラクティブ セッション