Cluster node tunggal

Cluster node tunggal adalah cluster Managed Service untuk Apache Spark yang hanya memiliki satu node. Node tunggal ini bertindak sebagai master dan pekerja untuk cluster Managed Service untuk Apache Spark Anda. Meskipun cluster node tunggal hanya memiliki satu node, sebagian besar konsep dan fitur Managed Service untuk Apache Spark tetap berlaku, kecuali yang tercantum di bawah.

Ada beberapa situasi saat cluster Managed Service untuk Apache Spark node tunggal dapat berguna, termasuk:

  • Mencoba versi baru Spark dan Hadoop atau komponen open source lainnya
  • Membuat demonstrasi bukti konsep (PoC)
  • Data science ringan
  • Pemrosesan data non-kritis skala kecil
  • Pendidikan terkait ekosistem Spark dan Hadoop

Semantik cluster node tunggal

Semantik berikut berlaku untuk cluster Managed Service untuk Apache Spark node tunggal:

  • Cluster node tunggal dikonfigurasi sama dengan cluster Managed Service untuk Apache Spark multi-node, dan mencakup layanan seperti HDFS dan YARN.
  • Cluster node tunggal dilaporkan sebagai node master untuk tindakan inisialisasi.
  • Cluster node tunggal menampilkan 0 pekerja karena node tunggal bertindak sebagai master dan pekerja.
  • Cluster node tunggal diberi nama host yang mengikuti pola clustername-m. Anda dapat menggunakan nama host ini untuk melakukan SSH atau terhubung ke UI web di node.
  • Cluster node tunggal tidak dapat diupgrade ke cluster multi-node. Setelah dibuat, cluster node tunggal dibatasi menjadi satu node. Demikian pula, cluster multi-node tidak dapat diturunkan skalanya menjadi cluster node tunggal.

Batasan

  • Cluster node tunggal tidak direkomendasikan untuk pemrosesan data paralel skala besar. Jika Anda melebihi resource pada cluster node tunggal, cluster Managed Service untuk Apache Spark multi-node direkomendasikan.

  • Cluster node tunggal tidak tersedia dengan ketersediaan tinggi karena hanya ada satu node di cluster.

  • Cluster node tunggal tidak dapat menggunakan VM preemptible.

Membuat cluster node tunggal

Perintah gcloud

Anda dapat membuat cluster Managed Service untuk Apache Spark node tunggal menggunakan alat command line gcloud. Untuk membuat cluster node tunggal, teruskan tanda --single-node ke perintah gcloud dataproc clusters create.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

REST API

Anda dapat membuat cluster node tunggal melalui Managed Service untuk Apache Spark REST API menggunakan clusters.create. Saat membuat permintaan ini, Anda harus:

  1. Menambahkan properti "dataproc:dataproc.allow.zero.workers":"true" ke SoftwareConfig permintaan cluster.
  2. Jangan mengirimkan nilai untuk workerConfig dan secondaryWorkerConfig (lihat ClusterConfig).

Konsol

Anda dapat membuat cluster node tunggal dengan memilih "Single Node (1 master, 0 workers)" di bagian Cluster type pada panel Set up cluster di halaman Managed Service untuk Apache Spark Create a cluster