Managed Service for Apache Spark コンポーネント

このドキュメントでは、Managed Service for Apache Spark クラスタで使用可能なさまざまなタイプのコンポーネントの概要について説明します。これらのコンポーネントを理解することは、ビッグデータ ワークロードに必要なツールとサービスを含むようにクラスタを構成するために不可欠です。Managed Service for Apache Spark コンポーネントは、インストール済み、オプション、初期化アクションのコンポーネントに分類されます。

コンポーネントの種類

Managed Service for Apache Spark クラスタには、次のタイプのコンポーネントがあります。

  • インストール済みのコンポーネント: イメージにインストールされ、クラスタの作成時に有効になるコンポーネント。

  • オプション コンポーネント: クラスタを作成した際にインストールできるコンポーネント。Managed Service for Apache Spark は、クラスタ イメージ バージョンに応じて、次のようにオプション コンポーネントをインストールして有効にします。

    • 2.2 以前のイメージ バージョン: オプション コンポーネントが自動的にインストールされます。選択されたオプション コンポーネントは有効になり、選択されなかったオプション コンポーネントはクラスタの作成時にアンインストールされます。

    • 2.3 以降のイメージ バージョン: Jupyter、Iceberg、Delta Lake のオプション コンポーネントを除くすべてのオプション コンポーネントは、クラスタの作成時にインストールされます。Jupyter、Iceberg、Delta Lake のオプション コンポーネントは、2.3 以降のイメージ バージョンにプリインストールされています。2.3 以降のイメージ バージョンのクラスタでは、クラスタの作成時に有効になっていない場合、プリインストールされたオプション コンポーネントは削除されます。詳細については、Managed Service for Apache Spark 2.3.x リリース バージョンをご覧ください。

  • 初期化アクション コンポーネント: クラスタの作成時に指定する初期化アクションの一部としてクラスタにインストールされるコンポーネント。

オプション コンポーネントは、初期化アクションが実行される前にクラスタにインストールされます。

Managed Service for Apache Spark イメージ バージョン ページには、最新の Managed Service for Apache Spark イメージ リリースで使用可能なコンポーネントとコンポーネント タイプが一覧表示されています。

オプション コンポーネントには、コンポーネントのインストールに使用される初期化アクションよりも次の利点があります。

  • オプション コンポーネントは、特定の Managed Service for Apache Spark バージョンとの互換性がテストされています。
  • オプション コンポーネントはクラスタ作成パラメータで有効になります。初期化アクションにはスクリプトが必要です。

利用可能なオプション コンポーネント

オプション コンポーネント Google Cloud CLI コマンドと API リクエストのコンポーネント名
イメージ バージョン リリースのステージ
Delta Lake DELTA 2.2.46 以降 GA
Docker DOCKER 1.5 以降 GA
Flink FLINK 1.5 以降 GA
HBase HBASE 1.5 以降
2.1 以降では利用できません)
非推奨
Hive WebHCat HIVE_WEBHCAT 1.3 以降 GA
Hudi HUDI 1.5 以降 GA
Iceberg ICEBERG 2.2 以降 GA
Jupyter ノートブック JUPYTER 1.3 以降 GA
Pig PIG 1.5* 以降 GA
Presto PRESTO 1.3 以降
2.1 以降では利用できません)
GA
Ranger RANGER 1.3 以降 GA
Solr SOLR 1.3 以降 GA
Trino TRINO 2.1 以降 GA
Zeppelin ノートブック ZEPPELIN 1.3 以降 GA
Zookeeper ZOOKEEPER 1.0 以降 GA

注:

  • Apache Pig は、イメージ バージョン 2.3 以降のオプション コンポーネントです。2.2 以前のイメージ バージョンではプリインストールされていました。

オプション コンポーネントを追加する

コンソール

  1. Google Cloud コンソールで、Managed Service for Apache Spark の [クラスタの作成] ページに移動します。

    [クラスタの作成] に移動

    [クラスタの設定] パネルが選択されています。

  2. [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールするコンポーネントを 1 つ以上選択します。

Google Cloud CLI

Managed Service for Apache Spark クラスタを作成し、1 つ以上のオプション コンポーネントをインストールするには、--optional-components フラグを指定した gcloud beta dataproc clusters create cluster-name コマンドを使用します。

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Managed Service for Apache Spark API でオプション コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。