Servizi Managed Service per Apache Spark

Questa pagina elenca i servizi eseguiti dalle versioni delle immagini di Managed Service for Apache Spark sui nodi dei cluster Managed Service for Apache Spark.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo Servizio Versioni delle immagini Descrizione
Tutti i nodi google-dataproc-agent tutti Riceve i job da Managed Service for Apache Spark e avvia i driver dei job
google-fluentd tutti Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti sui cluster standard.

Tipo di nodo Servizio Versioni delle immagini Descrizione
Master hadoop-hdfs-namenode tutti Gestisce il file system HDFS
hadoop-hdfs-secondarynamenode tutti Esegue il checkpoint del NameNode
hadoop-mapreduce-historyserver tutti Fornisce informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-resourcemanager tutti Pianifica e gestisce le applicazioni YARN
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
hive-metastore tutti Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni delle immagini < 1.5) o mysql (versioni delle immagini 1.5+) sul nodo master come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti database come database del metastore Hive (in ordine di consigli):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutti Fornisce query ricevute dai client (principalmente query della shell beeline) su Hive
mariadb < 1.5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark < 1.5
mysql 1.5+ Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark 1.5+
nfs-kernel-server < 1.3 NFS è il Network File System.
spark-history-server tutti Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker hadoop-yarn-nodemanager tutti Avvia e gestisce i container YARN
Solo worker principali hadoop-hdfs-datanode tutti Archivia i blocchi HDFS

Cluster ad alta disponibilità

Nei cluster ad alta disponibilità (HA) di Managed Service for Apache Spark , servizi diversi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi dei nodi worker dei cluster ad alta disponibilità sono gli stessi elencati per i cluster standard.

Tipo di nodo Servizio Versioni delle immagini Descrizione
Tutti i master hadoop-hdfs-journalnode tutti Un quorum di nodi journal gestisce un log di modifica delle modifiche dello spazio dei nomi HDFS. Se si verifica un failover, il NameNode di standby legge il log di modifica e assume il controllo dal NameNode attivo.
hadoop-yarn-resourcemanager tutti Pianifica e gestisce le applicazioni YARN
hive-metastore tutti Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale mariadb (versioni delle immagini < 1.5) o mysql (versioni delle immagini 1.5+) sul nodo master come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti database come database del metastore Hive (in ordine di consigli):
  1. Dataproc Metastore
  2. Istanza Cloud SQL
hive-server2 tutti Fornisce query ricevute dai client (principalmente query della shell beeline) su Hive
zookeeper-server tutti Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nei cluster ad alta disponibilità (HA), viene utilizzato per l'elezione del leader dei NameNode HDFS e dei gestori delle risorse YARN.
Solo master 0 e 1 hadoop-hdfs-namenode tutti Gestisce il file system HDFS
hadoop-hdfs-zkfc tutti ZKFC è il processo ZKFailoverController, che viene eseguito con il NameNode HDFS. Monitora l'integrità del NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover.
Solo master 0 hadoop-mapreduce-historyserver tutti Fornisce informazioni sulla cronologia delle applicazioni MapReduce
hadoop-yarn-timelineserver 1.3+ Fornisce informazioni sulla cronologia delle applicazioni YARN
mariadb < 1.5 Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark < 1.5
mysql 1.5+ Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark 1.5+
nfs-kernel-server < 1.3 NFS è il Network File System.
spark-history-server tutti Fornisce informazioni sulla cronologia delle applicazioni Spark