Dataproc 服務

本頁列出 Dataproc 映像檔版本在 Dataproc 叢集節點上執行的服務。

所有節點

下列服務會在叢集中的所有節點上執行。

節點類型 服務 映像檔版本 說明
所有節點 google-dataproc-agent 全部 接收 Dataproc 的工作並啟動工作驅動程式
google-fluentd 全部 收集記錄並推送至 Logging

標準叢集

下列服務會在標準叢集上執行。

節點類型 服務 映像檔版本 說明
主要執行個體 hadoop-hdfs-namenode 全部 管理 HDFS 檔案系統
hadoop-hdfs-secondarynamenode 全部 檢查 NameNode
hadoop-mapreduce-historyserver 全部 提供 MapReduce 應用程式歷史記錄資訊
hadoop-yarn-resourcemanager 全部 排定及管理 YARN 應用程式
hadoop-yarn-timelineserver 1.3+ 提供 YARN 應用程式歷史記錄資訊
hive-metastore 全部 管理 Hive 資料表中繼資料。預設會使用主節點上的本機 mariadb (映像檔版本 < 1.5) 或 mysql (映像檔版本 1.5 以上) 資料庫,做為 Hive 資料表中繼資料儲存庫。不建議使用預設資料庫,因為這些資料庫與叢集的生命週期相關。請改用下列任一資料庫做為 Hive metastore 資料庫 (依建議順序):
  1. Dataproc Metastore
  2. Cloud SQL 執行個體
hive-server2 全部 處理從用戶端收到的查詢 (主要是 beeline shell 查詢),並對 Hive 執行查詢
mariadb < 1.5 關聯式資料庫,在 Dataproc < 1.5 的映像檔中,用做 Hive metastore 的預設基礎資料庫
mysql 1.5+ 關聯式資料庫,在 Dataproc 1.5 以上的映像檔中,用做 Hive Metastore 的預設基礎資料庫
nfs-kernel-server < 1.3 NFS 的全稱是網路檔案系統。
spark-history-server 全部 提供 Spark 應用程式歷史記錄資訊
所有 Worker hadoop-yarn-nodemanager 全部 啟動及管理 YARN 容器
僅限主要 Worker hadoop-hdfs-datanode 全部 儲存 HDFS 區塊

高可用性叢集

在 Dataproc 高可用性 (HA) 叢集中,不同服務會在不同主節點上執行,如下所示。HA 叢集 worker 節點服務與標準叢集列出的服務相同。

節點類型 服務 映像檔版本 說明
所有主節點 hadoop-hdfs-journalnode 全部 系統仲裁的日誌節點會維護 HDFS 命名空間修改的編輯記錄。如果發生容錯移轉,備用 NameNode 會讀取編輯記錄,並接管 Active NameNode。
hadoop-yarn-resourcemanager 全部 排定及管理 YARN 應用程式
hive-metastore 全部 管理 Hive 資料表中繼資料。預設會使用主節點上的本機 mariadb (映像檔版本 < 1.5) 或 mysql (映像檔版本 1.5 以上) 資料庫,做為 Hive 資料表中繼資料儲存庫。不建議使用預設資料庫,因為這些資料庫與叢集的生命週期相關。請改用下列任一資料庫做為 Hive metastore 資料庫 (依建議順序):
  1. Dataproc Metastore
  2. Cloud SQL 執行個體
hive-server2 全部 處理從用戶端收到的查詢 (主要是 beeline shell 查詢),並對 Hive 執行查詢
zookeeper-server 全部 ZooKeeper 仲裁用於分散式協調。在高可用性 (HA) 叢集中,ZooKeeper 用於HDFS NameNodeYARN 資源管理員的勝出版本選擇。
僅限主節點 0 和 1 hadoop-hdfs-namenode 全部 管理 HDFS 檔案系統
hadoop-hdfs-zkfc 全部 ZKFC 是 ZKFailoverController 程序,會與 HDFS NameNode 一併執行。它會監控 NameNode 的健康狀態,並在發生容錯移轉時,透過 ZooKeeper 管理勝出版本選擇。
僅限主節點 0 hadoop-mapreduce-historyserver 全部 提供 MapReduce 應用程式歷史記錄資訊
hadoop-yarn-timelineserver 1.3+ 提供 YARN 應用程式歷史記錄資訊
mariadb < 1.5 關聯式資料庫,在 Dataproc < 1.5 的映像檔中,用做 Hive metastore 的預設基礎資料庫
mysql 1.5+ 關聯式資料庫,在 Dataproc 1.5 以上的映像檔中,用做 Hive Metastore 的預設基礎資料庫
nfs-kernel-server < 1.3 NFS 的全稱是網路檔案系統。
spark-history-server 全部 提供 Spark 應用程式歷史記錄資訊