Sebagai alternatif untuk menjalankan alur kerja di cluster terkelola, Anda dapat menggunakan pemilih cluster untuk memilih cluster yang ada untuk alur kerja Anda. Pada akhir alur kerja, cluster yang dipilih tidak akan dihapus.
Pemilih menentukan satu atau beberapa label pengguna Managed Service for Apache Spark. Cluster di region yang sama dengan alur kerja yang labelnya cocok dengan semua label pemilih memenuhi syarat untuk menjalankan tugas alur kerja. Jika beberapa cluster cocok dengan pemilih, Managed Service for Apache Spark akan memilih cluster dengan memori YARN gratis terbanyak.
Menambahkan pemilih cluster ke template
Anda dapat menambahkan pemilih cluster ke template alur kerja menggunakan Google Cloud CLI atau Dataproc API.
Perintah gcloud
gcloud dataproc workflow-templates set-cluster-selector template-id \ --region=region \ --cluster-labels=name=value[[,name=value]...]
REST API
Lihat WorkflowTemplatePlacement.ClusterSelector. workflowTemplates.updateKonsol
Anda dapat melihat template alur kerja yang ada dan alur kerja yang dibuat instance-nya dari halaman Workflows Managed Service for Apache Spark di Google Cloud konsol.
Menggunakan label yang diterapkan secara otomatis
Anda dapat mengarahkan pemilih cluster ke cluster yang ada menggunakan salah satu label cluster yang diterapkan secara otomatis berikut:
goog-dataproc-cluster-namegoog-dataproc-cluster-uuid
Contoh:
gcloud dataproc workflow-templates set-cluster-selector template-id \ --region=region \ --cluster-labels=goog-dataproc-cluster-name=my-cluster
Memilih dari kumpulan cluster
Anda dapat mengizinkan Managed Service for Apache Spark memilih cluster dari kumpulan cluster. Kumpulan cluster dapat ditentukan dengan label.
Contoh:
gcloud dataproc clusters create cluster-1 --labels cluster-pool=pool-1 \ --region=region gcloud dataproc clusters create cluster-2 --labels cluster-pool=pool-1 \ --region=region gcloud dataproc clusters create cluster-3 --labels cluster-pool=pool-2 \ --region=region
Setelah pembuatan cluster ...
gcloud dataproc workflow-templates create my-template \ --region=region gcloud dataproc workflow-templates set-cluster-selector my-template \ --region=region \ --cluster-labels=cluster-pool=pool-1
Alur kerja akan dijalankan di cluster-1 atau cluster-2, tetapi tidak di cluster-3.