Dokumen ini menjelaskan cara membuat cluster zero-scale Managed Service untuk Apache Spark.
Cluster skala nol Managed Service untuk Apache Spark memberikan cara yang hemat biaya untuk menggunakan cluster Managed Service untuk Apache Spark. Tidak seperti cluster Managed Service untuk Apache Spark standar yang memerlukan minimal dua pekerja utama, cluster Managed Service untuk Apache Spark berskala nol hanya menggunakan pekerja sekunder yang dapat diskalakan ke nol.
Cluster Managed Service for Apache Spark dengan skala nol sangat ideal untuk digunakan sebagai cluster yang berjalan lama yang mengalami periode tidak ada aktivitas, seperti cluster yang menghosting notebook Jupyter. Kebijakan ini memberikan pemanfaatan resource yang lebih baik melalui penggunaan kebijakan penskalaan otomatis skala nol.
Persyaratan dan batasan
Cluster skala nol Managed Service for Apache Spark memiliki persyaratan dan batasan berikut:
- Memerlukan versi image
2.2.61atau yang lebih baru. - Memerlukan penggunaan Cloud Storage, bukan sistem file HDFS.
- Hanya mendukung worker sekunder, bukan worker primer.
- Tidak dapat dikonversi ke atau dari cluster standar.
- Tidak mendukung komponen Oozie.
Membuat cluster zero-scale Managed Service untuk Apache Spark
Anda dapat membuat cluster skala nol menggunakan gcloud CLI atau Managed Service for Apache Spark API.
gcloud
Jalankan perintah
gcloud dataproc clusters create
secara lokal di jendela terminal atau di
Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
...other args
Ganti kode berikut:
- CLUSTER_NAME: nama cluster skala nol Managed Service untuk Apache Spark.
- REGION: region Compute Engine yang tersedia.
- AUTOSCALING_POLICY (Opsional): Jika Anda
membuat kebijakan penskalaan otomatis
untuk diterapkan ke cluster berskala nol, gunakan flag ini untuk menentukan ID atau
URI resource kebijakan penskalaan otomatis. Saat membuat kebijakan:
- Tetapkan
clusterTypekeZERO_SCALE. - Konfigurasi kebijakan penskalaan otomatis hanya untuk
secondaryWorkerConfig.
- Tetapkan
- Sistem file Cloud Storage: Anda harus menyetel
core:fs.defaultFSke bucket Cloud Storage untuk menyetel sistem file cluster skala nol ke Cloud Storage, bukan HDFS default.- BUCKET_NAME: nama bucket Cloud Storage. Nama bucket harus unik untuk setiap cluster berskala nol.
REST
- Jenis cluster: Tetapkan
ClusterConfig.ClusterTypekeZERO_SCALE. - Kebijakan penskalaan otomatis (Opsional): Jika Anda
membuat kebijakan penskalaan otomatis
untuk diterapkan ke cluster berskala nol, tetapkan
AutoscalingConfig.policyUridengan ID kebijakan penskalaan otomatisZERO_SCALE. Saat membuat kebijakan:- Tetapkan
clusterTypekeZERO_SCALE. - Konfigurasi kebijakan penskalaan otomatis hanya untuk
secondaryWorkerConfig.
- Tetapkan
- Sistem file Cloud Storage: Anda harus menyetel
core:fs.defaultFSke bucket Cloud Storage untuk menyetel sistem file cluster skala nol ke Cloud Storage, bukan HDFS default.- Tambahkan
core:fs.defaultFS:gs://BUCKET_NAMESoftwareConfig.property. Ganti BUCKET_NAME dengan nama bucket Cloud Storage Anda. Tentukan nama bucket unik untuk setiap cluster berskala nol.
- Tambahkan
Langkah berikutnya
- Pelajari lebih lanjut penskalaan otomatis Managed Service untuk Apache Spark.