Serverless for Apache Spark の概要

Google Cloud Apache Spark 向け Serverless を使用すると、独自の Dataproc クラスタのプロビジョニングや管理を行うことなく、Spark ワークロードを実行できます。Apache Spark 向け Serverless ワークロードを実行するには、 バッチ ワークロードとインタラクティブ セッションの 2 つの方法があります。

バッチ ワークロード

コンソール、Google Cloud CLI、または Dataproc API を使用して、Apache Spark 向け Serverless サービスにバッチ ワークロードを送信します。Google Cloud このサービスは、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。Apache Spark 向け Serverless の料金は 、ワークロードが実行されている時間に対してのみ適用されます。

バッチ ワークロードの機能

次の Apache Spark 向け Serverless バッチ ワークロード タイプを実行できます。

  • PySpark
  • Spark SQL
  • Spark R
  • Spark(Java または Scala)

Apache Spark 向け Serverless バッチ ワークロードを送信するときに、Spark プロパティ を指定できます。

バッチ ワークロードをスケジュールする

Airflow バッチ演算子を使用して、Spark バッチ ワークロードを Airflow または Cloud Composer ワークフローの一部としてスケジューリングできます。詳細については、 Cloud Composer で Apache Spark 向け Serverless ワークロードを実行するをご覧ください。

始める

始めるには、 Apache Spark バッチ ワークロードを実行するをご覧ください。

インタラクティブ セッション

Apache Spark 向け Serverless インタラクティブ セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の 方法で作成できます。

  • BigQuery Studio ノートブックで PySpark コードを実行します。 BigQuery Python ノートブックを開いて、 Spark Connect ベースの Apache Spark 向け Serverless インタラクティブ セッションを作成します。各 BigQuery ノートブックには、アクティブな Apache Spark 向け Serverless セッションを 1 つだけ関連付けることができます。

  • Dataproc JupyterLab プラグイン を使用して、作成 および管理するテンプレートから複数の Jupyter ノートブック セッションを作成します。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、JupyterLab ランチャー ページに、さまざまな Spark カーネル構成 に対応するさまざまなカードが表示されます。カードをクリックして Apache Spark 向け Serverless ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。

    Dataproc JupyterLab プラグインを使用すると、JupyterLab ランチャー ページで次の操作を行うこともできます。

    • Dataproc on Compute Engine クラスタを作成する。
    • Dataproc on Compute Engine クラスタにジョブを送信する。
    • と Spark ログを表示する。 Google Cloud

セキュリティのコンプライアンス

Apache Spark 向け Serverless は、Dataproc が準拠しているすべての データ所在地CMEKVPC-SC、 その他のセキュリティ要件に準拠しています。