Cluster node tunggal adalah cluster Managed Service untuk Apache Spark yang hanya memiliki satu node. Node tunggal ini bertindak sebagai master dan pekerja untuk cluster Managed Service untuk Apache Spark Anda. Meskipun cluster node tunggal hanya memiliki satu node, sebagian besar konsep dan fitur Managed Service untuk Apache Spark tetap berlaku, kecuali yang tercantum di bawah.
Ada beberapa situasi saat cluster Managed Service untuk Apache Spark node tunggal dapat berguna, termasuk:
- Mencoba versi baru Spark dan Hadoop atau komponen open source lainnya
- Membuat demonstrasi bukti konsep (PoC)
- Data science ringan
- Pemrosesan data non-kritis skala kecil
- Pendidikan terkait ekosistem Spark dan Hadoop
Semantik cluster node tunggal
Semantik berikut berlaku untuk cluster Managed Service untuk Apache Spark node tunggal:
- Cluster node tunggal dikonfigurasi sama dengan cluster Managed Service untuk Apache Spark multi-node, dan mencakup layanan seperti HDFS dan YARN.
- Cluster node tunggal dilaporkan sebagai node master untuk tindakan inisialisasi.
- Cluster node tunggal menampilkan 0 pekerja karena node tunggal bertindak sebagai master dan pekerja.
- Cluster node tunggal diberi nama host yang mengikuti pola
clustername-m. Anda dapat menggunakan nama host ini untuk melakukan SSH atau terhubung ke UI web di node. - Cluster node tunggal tidak dapat diupgrade ke cluster multi-node. Setelah dibuat, cluster node tunggal dibatasi menjadi satu node. Demikian pula, cluster multi-node tidak dapat diturunkan skalanya menjadi cluster node tunggal.
Batasan
Cluster node tunggal tidak direkomendasikan untuk pemrosesan data paralel skala besar. Jika Anda melebihi resource pada cluster node tunggal, cluster Managed Service untuk Apache Spark multi-node direkomendasikan.
Cluster node tunggal tidak tersedia dengan ketersediaan tinggi karena hanya ada satu node di cluster.
Cluster node tunggal tidak dapat menggunakan VM preemptible.
Membuat cluster node tunggal
Perintah gcloud
Anda dapat membuat cluster Managed Service untuk Apache Spark node tunggal menggunakan alat command line gcloud. Untuk membuat cluster node tunggal, teruskan tanda
--single-node ke perintah
gcloud dataproc clusters create.
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
REST API
Anda dapat membuat cluster node tunggal melalui Managed Service untuk Apache Spark REST API menggunakan clusters.create. Saat membuat permintaan ini, Anda harus:
- Menambahkan properti
"dataproc:dataproc.allow.zero.workers":"true"ke SoftwareConfig permintaan cluster. - Jangan mengirimkan nilai untuk
workerConfigdansecondaryWorkerConfig(lihat ClusterConfig).
Konsol
Anda dapat membuat cluster node tunggal dengan memilih "Single Node (1 master, 0 workers)" di bagian Cluster type pada panel Set up cluster di halaman Managed Service untuk Apache Spark Create a cluster