Managed Service untuk Apache Spark

Halaman ini mencantumkan layanan yang dijalankan oleh versi image Managed Service untuk Apache Spark di node cluster Managed Service untuk Apache Spark.

Semua node

Layanan berikut berjalan di semua node dalam cluster.

Jenis node Layanan Versi gambar Deskripsi
Semua node google-dataproc-agent semua Menerima tugas dari Managed Service untuk Apache Spark dan meluncurkan driver tugas
google-fluentd semua Mengumpulkan dan mengirim log ke Logging

Cluster standar

Layanan berikut berjalan di cluster standar.

Jenis node Layanan Versi gambar Deskripsi
Master hadoop-hdfs-namenode semua Mengelola sistem file HDFS
hadoop-hdfs-secondarynamenode semua Membuat checkpoint NameNode
hadoop-mapreduce-historyserver semua Menayangkan informasi histori aplikasi mapreduce
hadoop-yarn-resourcemanager semua Menjadwalkan dan mengelola aplikasi YARN
hadoop-yarn-timelineserver 1.3+ Menyajikan informasi histori aplikasi YARN
hive-metastore semua Mengelola metadata tabel Hive. Secara default, menggunakan database mariadb (versi gambar < 1.5) atau mysql (versi gambar 1.5+) lokal di node master sebagai penyimpanan metadata tabel Hive. Penggunaan database default tidak direkomendasikan karena database ini terikat dengan siklus proses cluster. Sebagai gantinya, gunakan salah satu opsi berikut sebagai database metastore Hive (dalam urutan rekomendasi):
  1. Dataproc Metastore
  2. Instance Cloud SQL
hive-server2 semua Menayangkan kueri yang diterima dari klien (terutama kueri shell beeline) terhadap Hive
mariadb < 1,5 Database relasional yang digunakan sebagai database pokok default untuk metastore Hive di image Managed Service untuk Apache Spark < 1.5
mysql 1.5+ Database relasional yang digunakan sebagai database pokok default untuk metastore Hive dalam image Managed Service untuk Apache Spark 1.5+
nfs-kernel-server < 1,3 NFS adalah Network File System.
spark-history-server semua Menyajikan informasi histori aplikasi Spark
Semua Pekerja hadoop-yarn-nodemanager semua Meluncurkan dan mengelola container YARN
Khusus Pekerja Primer hadoop-hdfs-datanode semua Menyimpan blok HDFS

Cluster HA

Di Managed Service untuk Apache Spark, cluster dengan Ketersediaan Tinggi (HA) menjalankan layanan yang berbeda di berbagai node master, seperti yang ditunjukkan di bawah. Layanan node pekerja cluster HA sama dengan yang tercantum untuk cluster standar.

Jenis node Layanan Versi gambar Deskripsi
Semua master hadoop-hdfs-journalnode semua Kuorum node jurnal mempertahankan log pengeditan modifikasi namespace HDFS. Jika terjadi failover, Standby NameNode akan membaca log pengeditan dan mengambil kontrol dari Active NameNode.
hadoop-yarn-resourcemanager semua Menjadwalkan dan mengelola aplikasi YARN
hive-metastore semua Mengelola metadata tabel Hive. Secara default, menggunakan database mariadb (versi gambar < 1.5) atau mysql (versi gambar 1.5+) lokal di node master sebagai penyimpanan metadata tabel Hive. Penggunaan database default tidak direkomendasikan karena database ini terikat dengan siklus proses cluster. Sebagai gantinya, gunakan salah satu opsi berikut sebagai database metastore Hive (dalam urutan rekomendasi):
  1. Dataproc Metastore
  2. Instance Cloud SQL
hive-server2 semua Menayangkan kueri yang diterima dari klien (terutama kueri shell beeline) terhadap Hive
zookeeper-server semua Kuorum ZooKeeper digunakan untuk koordinasi terdistribusi. Di cluster Ketersediaan Tinggi (HA), cluster ini digunakan untuk pemilihan pemimpin HDFS NameNodes dan YARN resource manager.
Hanya Master 0 dan 1 hadoop-hdfs-namenode semua Mengelola sistem file HDFS
hadoop-hdfs-zkfc semua ZKFC adalah proses ZKFailoverController, yang berjalan dengan HDFS NameNode. Layanan ini memantau kondisi NameNode, dan mengelola pemilihan pemimpin melalui ZooKeeper jika terjadi failover.
Khusus Master 0 hadoop-mapreduce-historyserver semua Menayangkan informasi histori aplikasi mapreduce
hadoop-yarn-timelineserver 1.3+ Menyajikan informasi histori aplikasi YARN
mariadb < 1,5 Database relasional yang digunakan sebagai database pokok default untuk metastore Hive di image Managed Service untuk Apache Spark < 1.5
mysql 1.5+ Database relasional yang digunakan sebagai database pokok default untuk metastore Hive dalam image Managed Service untuk Apache Spark 1.5+
nfs-kernel-server < 1,3 NFS adalah Network File System.
spark-history-server semua Menyajikan informasi histori aplikasi Spark