Managed Service for Apache Spark のサーバーレス デプロイの概要

Managed Service for Apache Spark のサーバーレス デプロイを使用すると、独自の Managed Service for Apache Spark クラスタのプロビジョニングと管理を行うことなく、Spark ワークロードを実行できます。Managed Service for Apache Spark ワークロードを実行する方法は、バッチ ワークロードとインタラクティブ セッションの 2 つがあります。

バッチ ワークロード

Google Cloud コンソール、Google Cloud CLI、または REST API を使用して、バッチ ワークロードを送信します。Managed Service for Apache Spark は、マネージド コンピューティング インフラストラクチャでワークロードを実行し、必要に応じてリソースを自動スケーリングします。料金は、ワークロードが実行されている時間に対してのみ適用されます。

バッチ ワークロードの機能

次のバッチ ワークロード タイプを実行できます。

  • PySpark
  • Spark SQL
  • Spark R
  • Spark(Java または Scala)

バッチ ワークロードを送信するときに、Spark のプロパティを指定できます。

バッチ ワークロードをスケジュールする

Airflow バッチ オペレータを使用して、Airflow または Cloud Composer ワークフローの一部として Spark バッチ ワークロードをスケジューリングできます。詳細については、Cloud Composer で Managed Service for Apache Spark ワークロードを実行するをご覧ください。

使ってみる

開始するには、Apache Spark バッチ ワークロードを実行するをご覧ください。

インタラクティブ セッション

インタラクティブ セッションでは、Jupyter ノートブックでコードを記述、実行します。ノートブック セッションは次の方法で作成できます。

  • BigQuery Studio ノートブックで PySpark コードを実行する。BigQuery Python ノートブックを開いて、Spark Connect ベースの Managed Service for Apache Spark インタラクティブ セッションを作成します。各 BigQuery ノートブックには、アクティブな Managed Service for Apache Spark セッションを 1 つだけ関連付けることができます。

  • JupyterLab プラグインを使用すると、作成および管理するテンプレートから複数の Jupyter ノートブック セッションを作成できます。ローカルマシンまたは Compute Engine VM にプラグインをインストールすると、さまざまな Spark カーネル構成に対応するさまざまなカードが JupyterLab ランチャー ページに表示されます。カードをクリックして Managed Service for Apache Spark ノートブック セッションを作成し、ノートブックでコードの記述とテストを開始します。

    JupyterLab プラグインを使用すると、JupyterLab ランチャー ページで次の操作を行うこともできます。

    • Managed Service for Apache Spark クラスタを作成する。
    • クラスタにジョブを送信します。
    • Google Cloud と Spark のログを表示する。

セキュリティ コンプライアンス

Managed Service for Apache Spark は、Managed Service for Apache Spark が準拠しているすべてのデータ所在地CMEKVPC-SC、その他のセキュリティ要件に準拠しています。