Membuat cluster skala nol Managed Service for Apache Spark

Dokumen ini menjelaskan cara membuat cluster Managed Service untuk Apache Spark dengan skala nol.

Cluster skala nol Managed Service untuk Apache Spark memberikan cara yang hemat biaya untuk menggunakan cluster Managed Service untuk Apache Spark. Tidak seperti cluster Managed Service untuk Apache Spark standar yang memerlukan minimal dua pekerja utama, cluster Managed Service untuk Apache Spark berskala nol hanya menggunakan pekerja sekunder yang dapat diskalakan ke nol.

Cluster skala nol Managed Service untuk Apache Spark sangat ideal untuk digunakan sebagai cluster yang berjalan lama yang mengalami periode tidak ada aktivitas, seperti cluster yang menghosting notebook Jupiter. Cluster ini memberikan peningkatan pemanfaatan resource melalui penggunaan kebijakan penskalaan otomatis skala nol.

Karakteristik dan batasan

Cluster skala nol Managed Service untuk Apache Spark memiliki kemiripan dengan cluster standar, tetapi memiliki karakteristik dan batasan unik berikut:

  • Memerlukan versi image 2.2.53 atau yang lebih baru.
  • Hanya mendukung worker sekunder, bukan worker primer.
  • Mencakup layanan seperti YARN, tetapi tidak mendukung sistem file HDFS.

    • Untuk menggunakan Cloud Storage sebagai sistem file default, tetapkan properti cluster core:fs.defaultFS ke lokasi bucket Cloud Storage (gs://BUCKET_NAME).
    • Jika Anda menonaktifkan komponen selama pembuatan cluster, nonaktifkan juga HDFS.
  • Tidak dapat dikonversi ke atau dari cluster standar.

  • Memerlukan kebijakan penskalaan otomatis untuk jenis cluster ZERO_SCALE.

  • Memerlukan pemilihan VM fleksibel sebagai jenis mesin.

  • Tidak mendukung komponen Oozie.

  • Tidak dapat dibuat dari konsol Google Cloud .

Opsional: Konfigurasi kebijakan penskalaan otomatis

Anda dapat mengonfigurasi kebijakan penskalaan otomatis untuk menentukan penskalaan pekerja sekunder untuk cluster skala nol. Saat melakukannya, perhatikan hal berikut:

  • Tetapkan jenis cluster ke ZERO_SCALE.
  • Konfigurasi kebijakan penskalaan otomatis hanya untuk konfigurasi worker sekunder.

Untuk mengetahui informasi selengkapnya, lihat Membuat kebijakan penskalaan otomatis.

Membuat cluster Managed Service untuk Apache Spark berskala nol

Buat cluster skala nol menggunakan gcloud CLI atau Dataproc API.

gcloud

Jalankan perintah gcloud dataproc clusters create secara lokal di jendela terminal atau di Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster skala nol Managed Service untuk Apache Spark.
  • REGION: region Compute Engine yang tersedia.
  • AUTOSCALING_POLICY: ID atau URI resource kebijakan penskalaan otomatis.
  • BUCKET_NAME: nama bucket Cloud Storage Anda.
  • MACHINE_TYPE: jenis mesin Compute Engine tertentu, seperti n1-standard-4, e2-standard-8.
  • RANK: menentukan prioritas daftar jenis mesin.

REST

Membuat cluster skala nol menggunakan Managed Service untuk Apache Spark REST API cluster.create request:

Langkah berikutnya