"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark

このページでは、Managed Service for Apache Spark イメージバージョンが Managed Service for Apache Spark クラスタノードで実行するサービスについて説明します。

すべてのノード

次のサービスは、クラスタ内のすべてのノードで実行されます。

ノードタイプ	サービス	イメージのバージョン	説明
すべてのノード	google-dataproc-agent	すべて	Managed Service for Apache Spark からジョブを受け取り、ジョブドライバを起動します。
すべてのノード	google-fluentd	すべて	ログを収集して Logging にプッシュします。

Standard クラスタ

次のサービスは標準クラスタで実行されます。

ノードタイプ	サービス	イメージのバージョン	説明
マスター	hadoop-hdfs-namenode	すべて	HDFS ファイルシステムを管理します。
	hadoop-hdfs-secondarynamenode	すべて	NameNode のチェックポイントとして機能します。
	hadoop-mapreduce-historyserver	すべて	MapReduce アプリケーションの履歴情報を提供します。
	hadoop-yarn-resourcemanager	すべて	YARN アプリケーションをスケジューリングし管理します。
	hadoop-yarn-timelineserver	1.3 以降	YARN アプリケーションの履歴情報を提供します。
	hive-metastore	すべて	Hive テーブルのメタデータを管理します。デフォルトでは、Hive テーブルのメタデータストアとして、マスターノードのローカル `mariadb`（イメージバージョン 1.5 未満）または `mysql`（イメージバージョン 1.5 以降）データベースを使用します。デフォルトのデータベースはクラスタのライフサイクルに関連付けられているため、使用することはおすすめしません。代わりに、Hive メタストアデータベースとして次のいずれかを使用します（推奨順）。 Dataproc Metastore Cloud SQL インスタンス
	hive-server2	すべて	クライアントから受信した Hive に対するクエリ（主に Beeline シェルクエリ）を処理します。
	mariadb	1.5 より前	Managed Service for Apache Spark 1.5 未満のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナルデータベース。
	mysql	1.5 以降	Managed Service for Apache Spark 1.5 以上のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナルデータベース。
	nfs-kernel-server	1.3 より前	NFS は、ネットワークファイルシステムです。
	spark-history-server	すべて	Spark アプリケーションの履歴情報を提供します。
すべてのワーカー	hadoop-yarn-nodemanager	すべて	YARN コンテナを起動して管理します。
プライマリワーカーのみ	hadoop-hdfs-datanode	すべて	HDFS ブロックを保存する

HA クラスタ

Managed Service for Apache Spark の高可用性（HA）クラスタでは、次の図に示すように、異なるサービスが異なるマスターノードで実行されます。HA クラスタのワーカーノードサービスは、標準クラスタに記載されているサービスと同じです。

ノードタイプ	サービス	イメージのバージョン	説明
すべてのマスター	hadoop-hdfs-journalnode	すべて	ジャーナルノードのクォーラムにより、HDFS 名前空間の変更の編集ログが維持されます。フェイルオーバーが発生すると、Standby NameNode が編集ログを読み取り、Active NameNode から制御を取得します。
	hadoop-yarn-resourcemanager	すべて	YARN アプリケーションをスケジューリングし管理します。
	hive-metastore	すべて	Hive テーブルのメタデータを管理します。デフォルトでは、Hive テーブルのメタデータストアとして、マスターノードのローカル `mariadb`（イメージバージョン 1.5 未満）または `mysql`（イメージバージョン 1.5 以降）データベースを使用します。デフォルトのデータベースはクラスタのライフサイクルに関連付けられているため、使用することはおすすめしません。代わりに、Hive メタストアデータベースとして次のいずれかを使用します（推奨順）。 Dataproc Metastore Cloud SQL インスタンス
	hive-server2	すべて	クライアントから受信した Hive に対するクエリ（主に Beeline シェルクエリ）を処理します。
	zookeeper-server	すべて	ZooKeeper クォーラムは、分散調整に使用されます。高可用性（HA）クラスタでは、HDFS NameNode と YARN リソースマネージャーのリーダーの選択に使用されます。
マスター 0 とマスター 1 のみ	hadoop-hdfs-namenode	すべて	HDFS ファイルシステムを管理します。
マスター 0 とマスター 1 のみ	hadoop-hdfs-zkfc	すべて	ZKFC は `ZKFailoverController` プロセスで、HDFS NameNode とともに実行されます。NameNode の状態をモニタリングし、フェイルオーバーが発生した場合は ZooKeeper を介してリーダー選出を管理します。
マスター 0 のみ	hadoop-mapreduce-historyserver	すべて	MapReduce アプリケーションの履歴情報を提供します。
	hadoop-yarn-timelineserver	1.3 以降	YARN アプリケーションの履歴情報を提供します。
	mariadb	1.5 より前	Managed Service for Apache Spark 1.5 未満のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナルデータベース。
	mysql	1.5 以降	Managed Service for Apache Spark 1.5 以上のイメージで、Hive メタストアのデフォルトの基盤データベースとして使用されるリレーショナルデータベース。
	nfs-kernel-server	1.3 より前	NFS は、ネットワークファイルシステムです。
	spark-history-server	すべて	Spark アプリケーションの履歴情報を提供します。

Managed Service for Apache Spark コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

すべてのノード

Standard クラスタ

HA クラスタ

Managed Service for Apache Spark