Managed Service for Apache Spark ゼロスケール クラスタを作成する

このドキュメントでは、Managed Service for Apache Spark ゼロスケール クラスタを作成する方法について説明します。

Managed Service for Apache Spark ゼロスケール クラスタは、Managed Service for Apache Spark クラスタを使用するための費用対効果の高い方法を提供します。少なくとも 2 つのプライマリ ワーカーを必要とする標準の Managed Service for Apache Spark クラスタ とは異なり、Managed Service for Apache Spark ゼロスケール クラスタでは、ゼロにスケールダウンできる セカンダリ ワーカー のみを使用します。

Managed Service for Apache Spark ゼロスケール クラスタは、Jupiter ノートブックをホストするクラスタなど、アイドル状態の期間が発生する長時間実行クラスタとして使用するのに適しています。 ゼロスケール自動スケーリング ポリシーを使用して、リソース使用率を改善します。

特性と制限事項

Managed Service for Apache Spark ゼロスケール クラスタは標準クラスタと類似していますが、次のような独自の特性と制限があります。

  • 画像モード 2.2.53 以降が必要です。
  • プライマリ ワーカーではなく、セカンダリ ワーカーのみをサポートします。
  • YARN などのサービスが含まれますが、HDFS ファイル システムはサポートされていません。

    • Cloud Storage をデフォルトのファイル システムとして使用するには、core:fs.defaultFS クラスタ プロパティを Cloud Storage バケットのロケーション(gs://BUCKET_NAME)に設定します。
    • クラスタの作成時にコンポーネントを無効にする場合は、HDFS も無効にします。
  • Standard クラスタとの間で変換できません。

  • ZERO_SCALE クラスタタイプに自動スケーリング ポリシーが必要です。

  • マシンタイプとしてフレキシブル VM を選択する必要があります。

  • Oozie コンポーネントはサポートされていません。

  • Google Cloud コンソールからは作成できません。

省略可: 自動スケーリング ポリシーを構成する

ゼロスケール クラスタのセカンダリ ワーキング スケーリングを定義するように自動スケーリング ポリシーを構成できます。この操作を行う際は、次の点に注意してください。

  • クラスタタイプを ZERO_SCALE に設定します。
  • セカンダリ ワーカー構成にのみ自動スケーリング ポリシーを構成します。

詳細については、 自動スケーリング ポリシーを作成するをご覧ください。

Managed Service for Apache Spark ゼロスケール クラスタを作成する

gcloud CLI または Dataproc API を使用してゼロスケール クラスタを作成します。

gcloud

gcloud dataproc clusters create コマンドをターミナル ウィンドウでローカルに、または Cloud Shell で実行します。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

次のように置き換えます。

  • CLUSTER_NAME: Managed Service for Apache Spark ゼロスケール クラスタの名前。
  • REGION: 使用可能な Compute Engine リージョン
  • AUTOSCALING_POLICY: 自動スケーリング ポリシーの ID またはリソース URI。
  • BUCKET_NAME: Cloud Storage バケットの名前。
  • MACHINE_TYPE: 特定の Compute Engine マシンタイプ(n1-standard-4e2-standard-8 など)。
  • RANK: マシンタイプのリストの優先度を定義します。

REST

Managed Service for Apache Spark REST API cluster.create リクエストを使用してゼロスケールクラスタを作成します。

次のステップ