Managed Service for Apache Spark

このページでは、Managed Service for Apache Spark イメージ バージョンが Managed Service for Apache Spark クラスタノードで実行するサービスについて説明します。

すべてのノード

次のサービスは、クラスタ内のすべてのノードで実行されます。

ノードタイプ サービス イメージのバージョン 説明
すべてのノード google-dataproc-agent すべて Managed Service for Apache Spark からジョブを受け取り、ジョブドライバを起動します。
google-fluentd すべて ログを収集して Logging にプッシュします。

Standard クラスタ

次のサービスは標準クラスタで実行されます。

ノードタイプ サービス イメージのバージョン 説明
マスター hadoop-hdfs-namenode すべて HDFS ファイル システムを管理します。
hadoop-hdfs-secondarynamenode すべて NameNode のチェックポイントとして機能します。
hadoop-mapreduce-historyserver すべて MapReduce アプリケーションの履歴情報を提供します。
hadoop-yarn-resourcemanager すべて YARN アプリケーションをスケジューリングし管理します。
hadoop-yarn-timelineserver 1.3 以降 YARN アプリケーションの履歴情報を提供します。
hive-metastore すべて Hive テーブルのメタデータを管理します。デフォルトでは、Hive テーブルのメタデータ ストアとして、マスターノードのローカル mariadb(イメージ バージョン 1.5 未満)または mysql(イメージ バージョン 1.5 以降)データベースを使用します。デフォルトのデータベースはクラスタのライフサイクルに関連付けられているため、使用することはおすすめしません。代わりに、Hive メタストア データベースとして次のいずれかを使用します(推奨順)。
  1. Dataproc Metastore
  2. Cloud SQL インスタンス
hive-server2 すべて クライアントから受信した Hive に対するクエリ(主に Beeline シェルクエリ)を処理します。
mariadb 1.5 より前 Managed Service for Apache Spark 1.5 未満のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース。
mysql 1.5 以降 Managed Service for Apache Spark 1.5 以上のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース 。
nfs-kernel-server 1.3 より前 NFS は、ネットワーク ファイル システムです。
spark-history-server すべて Spark アプリケーションの履歴情報を提供します。
すべてのワーカー hadoop-yarn-nodemanager すべて YARN コンテナを起動して管理します。
プライマリ ワーカーのみ hadoop-hdfs-datanode すべて HDFS ブロックを保存する

HA クラスタ

Managed Service for Apache Spark の高可用性(HA)クラスタでは、 次の図に示すように、異なるサービスが異なるマスターノードで実行されます。HA クラスタのワーカー ノード サービスは、標準クラスタに記載されているサービスと同じです。

ノードタイプ サービス イメージのバージョン 説明
すべてのマスター hadoop-hdfs-journalnode すべて ジャーナル ノードのクォーラムにより、HDFS 名前空間の変更の編集ログが維持されます。フェイルオーバーが発生すると、Standby NameNode が編集ログを読み取り、Active NameNode から制御を取得します。
hadoop-yarn-resourcemanager すべて YARN アプリケーションをスケジューリングし管理します。
hive-metastore すべて Hive テーブルのメタデータを管理します。デフォルトでは、Hive テーブルのメタデータ ストアとして、マスターノードのローカル mariadb(イメージ バージョン 1.5 未満)または mysql(イメージ バージョン 1.5 以降)データベースを使用します。デフォルトのデータベースはクラスタのライフサイクルに関連付けられているため、使用することはおすすめしません。代わりに、Hive メタストア データベースとして次のいずれかを使用します(推奨順)。
  1. Dataproc Metastore
  2. Cloud SQL インスタンス
hive-server2 すべて クライアントから受信した Hive に対するクエリ(主に Beeline シェルクエリ)を処理します。
zookeeper-server すべて ZooKeeper クォーラムは、分散調整に使用されます。高可用性(HA)クラスタでは、HDFS NameNodeYARN リソース マネージャーのリーダーの選択に使用されます。
マスター 0 とマスター 1 のみ hadoop-hdfs-namenode すべて HDFS ファイル システムを管理します。
hadoop-hdfs-zkfc すべて ZKFC は ZKFailoverController プロセスで、HDFS NameNode とともに実行されます。NameNode の状態をモニタリングし、フェイルオーバーが発生した場合は ZooKeeper を介してリーダー選出を管理します。
マスター 0 のみ hadoop-mapreduce-historyserver すべて MapReduce アプリケーションの履歴情報を提供します。
hadoop-yarn-timelineserver 1.3 以降 YARN アプリケーションの履歴情報を提供します。
mariadb 1.5 より前 Managed Service for Apache Spark 1.5 未満のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース。
mysql 1.5 以降 Managed Service for Apache Spark 1.5 以上のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナル データベース 。
nfs-kernel-server 1.3 より前 NFS は、ネットワーク ファイル システムです。
spark-history-server すべて Spark アプリケーションの履歴情報を提供します。