このドキュメントでは、Managed Service for Apache Spark ゼロスケール クラスタを作成する方法について説明します。
Managed Service for Apache Spark ゼロスケール クラスタは、Managed Service for Apache Spark クラスタを使用するための費用対効果の高い方法を提供します。少なくとも 2 つのプライマリ ワーカーを必要とする標準の Managed Service for Apache Spark クラスタ とは異なり、Managed Service for Apache Spark ゼロスケール クラスタでは、ゼロにスケールダウンできる セカンダリ ワーカー のみを使用します。
Managed Service for Apache Spark ゼロスケール クラスタは、Jupiter ノートブックをホストするクラスタなど、アイドル状態の期間が発生する長時間実行クラスタとして使用するのに適しています。 ゼロスケール自動スケーリング ポリシーを使用して、リソース使用率を改善します。
特性と制限事項
Managed Service for Apache Spark ゼロスケール クラスタは標準クラスタと類似していますが、次のような独自の特性と制限があります。
- 画像モード
2.2.53以降が必要です。 - プライマリ ワーカーではなく、セカンダリ ワーカーのみをサポートします。
YARN などのサービスが含まれますが、HDFS ファイル システムはサポートされていません。
- Cloud Storage をデフォルトのファイル システムとして使用するには、
core:fs.defaultFSクラスタ プロパティを Cloud Storage バケットのロケーション(gs://BUCKET_NAME)に設定します。 - クラスタの作成時にコンポーネントを無効にする場合は、HDFS も無効にします。
- Cloud Storage をデフォルトのファイル システムとして使用するには、
Standard クラスタとの間で変換できません。
ZERO_SCALEクラスタタイプに自動スケーリング ポリシーが必要です。マシンタイプとしてフレキシブル VM を選択する必要があります。
Oozie コンポーネントはサポートされていません。
Google Cloud コンソールからは作成できません。
省略可: 自動スケーリング ポリシーを構成する
ゼロスケール クラスタのセカンダリ ワーキング スケーリングを定義するように自動スケーリング ポリシーを構成できます。この操作を行う際は、次の点に注意してください。
- クラスタタイプを
ZERO_SCALEに設定します。 - セカンダリ ワーカー構成にのみ自動スケーリング ポリシーを構成します。
詳細については、 自動スケーリング ポリシーを作成するをご覧ください。
Managed Service for Apache Spark ゼロスケール クラスタを作成する
gcloud CLI または Dataproc API を使用してゼロスケール クラスタを作成します。
gcloud
gcloud dataproc clusters create コマンドをターミナル ウィンドウでローカルに、または Cloud Shell で実行します。
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
--secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
...other args
次のように置き換えます。
- CLUSTER_NAME: Managed Service for Apache Spark ゼロスケール クラスタの名前。
- REGION: 使用可能な Compute Engine リージョン。
- AUTOSCALING_POLICY: 自動スケーリング ポリシーの ID またはリソース URI。
- BUCKET_NAME: Cloud Storage バケットの名前。
- MACHINE_TYPE: 特定の Compute Engine マシンタイプ(
n1-standard-4、e2-standard-8など)。 - RANK: マシンタイプのリストの優先度を定義します。
REST
Managed Service for Apache Spark REST API cluster.create リクエストを使用してゼロスケールクラスタを作成します。
secondaryWorkerConfigのClusterConfig.ClusterTypeをZERO_SCALEに設定します。AutoscalingConfig.policyUriをZERO_SCALE自動スケーリング ポリシー ID に設定します。core:fs.defaultFS:gs://BUCKET_NAMESoftwareConfig.property を追加します。BUCKET_NAME を Cloud Storage バケットの名前に置き換えます。