Questa pagina elenca i servizi eseguiti dalle versioni delle immagini di Managed Service for Apache Spark sui nodi dei cluster Managed Service for Apache Spark.
Tutti i nodi
I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.
| Tipo di nodo | Servizio | Versioni delle immagini | Descrizione |
|---|---|---|---|
| Tutti i nodi | google-dataproc-agent | tutti | Riceve i job da Managed Service for Apache Spark e avvia i driver dei job |
| google-fluentd | tutti | Raccoglie e invia i log a Logging |
Cluster standard
I seguenti servizi vengono eseguiti sui cluster standard.
| Tipo di nodo | Servizio | Versioni delle immagini | Descrizione |
|---|---|---|---|
| Master | hadoop-hdfs-namenode | tutti | Gestisce il file system HDFS |
| hadoop-hdfs-secondarynamenode | tutti | Esegue il checkpoint del NameNode | |
| hadoop-mapreduce-historyserver | tutti | Fornisce informazioni sulla cronologia delle applicazioni MapReduce | |
| hadoop-yarn-resourcemanager | tutti | Pianifica e gestisce le applicazioni YARN | |
| hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
| hive-metastore | tutti | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni delle immagini < 1.5) o
mysql (versioni delle immagini 1.5+)
sul nodo master come archivio dei metadati delle tabelle Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti database come
database del metastore Hive (in ordine di consigli):
|
|
| hive-server2 | tutti | Fornisce query ricevute dai client (principalmente query della shell beeline) su Hive | |
| mariadb | < 1.5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark < 1.5 | |
| mysql | 1.5+ | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark 1.5+ | |
| nfs-kernel-server | < 1.3 | NFS è il Network File System. | |
| spark-history-server | tutti | Fornisce informazioni sulla cronologia delle applicazioni Spark | |
| Tutti i worker | hadoop-yarn-nodemanager | tutti | Avvia e gestisce i container YARN |
| Solo worker principali | hadoop-hdfs-datanode | tutti | Archivia i blocchi HDFS |
Cluster ad alta disponibilità
Nei cluster ad alta disponibilità (HA) di Managed Service for Apache Spark , servizi diversi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi dei nodi worker dei cluster ad alta disponibilità sono gli stessi elencati per i cluster standard.
| Tipo di nodo | Servizio | Versioni delle immagini | Descrizione |
|---|---|---|---|
| Tutti i master | hadoop-hdfs-journalnode | tutti | Un quorum di nodi journal gestisce un log di modifica delle modifiche dello spazio dei nomi HDFS. Se si verifica un failover, il NameNode di standby legge il log di modifica e assume il controllo dal NameNode attivo. |
| hadoop-yarn-resourcemanager | tutti | Pianifica e gestisce le applicazioni YARN | |
| hive-metastore | tutti | Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale
mariadb (versioni delle immagini < 1.5) o
mysql (versioni delle immagini 1.5+)
sul nodo master come archivio dei metadati delle tabelle Hive.
L'utilizzo del database predefinito non è consigliato perché questi database
sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti database come
database del metastore Hive (in ordine di consigli):
|
|
| hive-server2 | tutti | Fornisce query ricevute dai client (principalmente query della shell beeline) su Hive | |
| zookeeper-server | tutti | Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nei cluster ad alta disponibilità (HA), viene utilizzato per l'elezione del leader dei NameNode HDFS e dei gestori delle risorse YARN. | |
| Solo master 0 e 1 | hadoop-hdfs-namenode | tutti | Gestisce il file system HDFS |
| hadoop-hdfs-zkfc | tutti | ZKFC è il processo ZKFailoverController, che viene eseguito con il NameNode HDFS. Monitora l'integrità del NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover. |
|
| Solo master 0 | hadoop-mapreduce-historyserver | tutti | Fornisce informazioni sulla cronologia delle applicazioni MapReduce |
| hadoop-yarn-timelineserver | 1.3+ | Fornisce informazioni sulla cronologia delle applicazioni YARN | |
| mariadb | < 1.5 | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark < 1.5 | |
| mysql | 1.5+ | Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark 1.5+ | |
| nfs-kernel-server | < 1.3 | NFS è il Network File System. | |
| spark-history-server | tutti | Fornisce informazioni sulla cronologia delle applicazioni Spark |