Membuat cluster skala nol Managed Service for Apache Spark

Dokumen ini menjelaskan cara membuat cluster zero-scale Managed Service untuk Apache Spark.

Cluster skala nol Managed Service untuk Apache Spark memberikan cara yang hemat biaya untuk menggunakan cluster Managed Service untuk Apache Spark. Tidak seperti cluster Managed Service untuk Apache Spark standar yang memerlukan minimal dua pekerja utama, cluster Managed Service untuk Apache Spark berskala nol hanya menggunakan pekerja sekunder yang dapat diskalakan ke nol.

Cluster Managed Service for Apache Spark dengan skala nol sangat ideal untuk digunakan sebagai cluster yang berjalan lama yang mengalami periode tidak ada aktivitas, seperti cluster yang menghosting notebook Jupyter. Kebijakan ini memberikan pemanfaatan resource yang lebih baik melalui penggunaan kebijakan penskalaan otomatis skala nol.

Persyaratan dan batasan

Cluster skala nol Managed Service for Apache Spark memiliki persyaratan dan batasan berikut:

  • Memerlukan versi image 2.2.61 atau yang lebih baru.
  • Memerlukan penggunaan Cloud Storage, bukan sistem file HDFS.
  • Hanya mendukung worker sekunder, bukan worker primer.
  • Tidak dapat dikonversi ke atau dari cluster standar.
  • Tidak mendukung komponen Oozie.

Membuat cluster zero-scale Managed Service untuk Apache Spark

Anda dapat membuat cluster skala nol menggunakan gcloud CLI atau Managed Service for Apache Spark API.

gcloud

Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    ...other args

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster skala nol Managed Service untuk Apache Spark.
  • REGION: region Compute Engine yang tersedia.
  • AUTOSCALING_POLICY (Opsional): Jika Anda membuat kebijakan penskalaan otomatis untuk diterapkan ke cluster berskala nol, gunakan flag ini untuk menentukan ID atau URI resource kebijakan penskalaan otomatis. Saat membuat kebijakan:
    • Tetapkan clusterType ke ZERO_SCALE.
    • Konfigurasi kebijakan penskalaan otomatis hanya untuk secondaryWorkerConfig.
  • Sistem file Cloud Storage: Anda harus menyetel core:fs.defaultFS ke bucket Cloud Storage untuk menyetel sistem file cluster skala nol ke Cloud Storage, bukan HDFS default.
    • BUCKET_NAME: nama bucket Cloud Storage. Nama bucket harus unik untuk setiap cluster berskala nol.

REST

  • Jenis cluster: Tetapkan ClusterConfig.ClusterType ke ZERO_SCALE.
  • Kebijakan penskalaan otomatis (Opsional): Jika Anda membuat kebijakan penskalaan otomatis untuk diterapkan ke cluster berskala nol, tetapkan AutoscalingConfig.policyUri dengan ID kebijakan penskalaan otomatis ZERO_SCALE. Saat membuat kebijakan:
    • Tetapkan clusterType ke ZERO_SCALE.
    • Konfigurasi kebijakan penskalaan otomatis hanya untuk secondaryWorkerConfig.
  • Sistem file Cloud Storage: Anda harus menyetel core:fs.defaultFS ke bucket Cloud Storage untuk menyetel sistem file cluster skala nol ke Cloud Storage, bukan HDFS default.
    • Tambahkan core:fs.defaultFS:gs://BUCKET_NAME SoftwareConfig.property. Ganti BUCKET_NAME dengan nama bucket Cloud Storage Anda. Tentukan nama bucket unik untuk setiap cluster berskala nol.

Langkah berikutnya