"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Servizi Managed Service per Apache Spark

Questa pagina elenca i servizi eseguiti dalle versioni delle immagini di Managed Service for Apache Spark sui nodi dei cluster Managed Service for Apache Spark.

Tutti i nodi

I seguenti servizi vengono eseguiti su tutti i nodi di un cluster.

Tipo di nodo	Servizio	Versioni delle immagini	Descrizione
Tutti i nodi	google-dataproc-agent	tutti	Riceve i job da Managed Service for Apache Spark e avvia i driver dei job
Tutti i nodi	google-fluentd	tutti	Raccoglie e invia i log a Logging

Cluster standard

I seguenti servizi vengono eseguiti sui cluster standard.

Tipo di nodo	Servizio	Versioni delle immagini	Descrizione
Master	hadoop-hdfs-namenode	tutti	Gestisce il file system HDFS
	hadoop-hdfs-secondarynamenode	tutti	Esegue il checkpoint del NameNode
	hadoop-mapreduce-historyserver	tutti	Fornisce informazioni sulla cronologia delle applicazioni MapReduce
	hadoop-yarn-resourcemanager	tutti	Pianifica e gestisce le applicazioni YARN
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	hive-metastore	tutti	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni delle immagini < 1.5) o `mysql` (versioni delle immagini 1.5+) sul nodo master come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti database come database del metastore Hive (in ordine di consigli): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutti	Fornisce query ricevute dai client (principalmente query della shell beeline) su Hive
	mariadb	< 1.5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark < 1.5
	mysql	1.5+	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark 1.5+
	nfs-kernel-server	< 1.3	NFS è il Network File System.
	spark-history-server	tutti	Fornisce informazioni sulla cronologia delle applicazioni Spark
Tutti i worker	hadoop-yarn-nodemanager	tutti	Avvia e gestisce i container YARN
Solo worker principali	hadoop-hdfs-datanode	tutti	Archivia i blocchi HDFS

Cluster ad alta disponibilità

Nei cluster ad alta disponibilità (HA) di Managed Service for Apache Spark , servizi diversi vengono eseguiti su nodi master diversi, come mostrato di seguito. I servizi dei nodi worker dei cluster ad alta disponibilità sono gli stessi elencati per i cluster standard.

Tipo di nodo	Servizio	Versioni delle immagini	Descrizione
Tutti i master	hadoop-hdfs-journalnode	tutti	Un quorum di nodi journal gestisce un log di modifica delle modifiche dello spazio dei nomi HDFS. Se si verifica un failover, il NameNode di standby legge il log di modifica e assume il controllo dal NameNode attivo.
	hadoop-yarn-resourcemanager	tutti	Pianifica e gestisce le applicazioni YARN
	hive-metastore	tutti	Gestisce i metadati delle tabelle Hive. Per impostazione predefinita, utilizza il database locale `mariadb` (versioni delle immagini < 1.5) o `mysql` (versioni delle immagini 1.5+) sul nodo master come archivio dei metadati delle tabelle Hive. L'utilizzo del database predefinito non è consigliato perché questi database sono legati al ciclo di vita del cluster. Utilizza invece uno dei seguenti database come database del metastore Hive (in ordine di consigli): Dataproc Metastore Istanza Cloud SQL
	hive-server2	tutti	Fornisce query ricevute dai client (principalmente query della shell beeline) su Hive
	zookeeper-server	tutti	Per il coordinamento distribuito viene utilizzato un quorum di ZooKeeper. Nei cluster ad alta disponibilità (HA), viene utilizzato per l'elezione del leader dei NameNode HDFS e dei gestori delle risorse YARN.
Solo master 0 e 1	hadoop-hdfs-namenode	tutti	Gestisce il file system HDFS
Solo master 0 e 1	hadoop-hdfs-zkfc	tutti	ZKFC è il processo `ZKFailoverController`, che viene eseguito con il NameNode HDFS. Monitora l'integrità del NameNode e gestisce l'elezione del leader tramite ZooKeeper in caso di failover.
Solo master 0	hadoop-mapreduce-historyserver	tutti	Fornisce informazioni sulla cronologia delle applicazioni MapReduce
	hadoop-yarn-timelineserver	1.3+	Fornisce informazioni sulla cronologia delle applicazioni YARN
	mariadb	< 1.5	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark < 1.5
	mysql	1.5+	Un database relazionale utilizzato come database sottostante predefinito per il metastore Hive nelle immagini di Managed Service for Apache Spark 1.5+
	nfs-kernel-server	< 1.3	NFS è il Network File System.
	spark-history-server	tutti	Fornisce informazioni sulla cronologia delle applicazioni Spark

Servizi Managed Service per Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Tutti i nodi

Cluster standard

Cluster ad alta disponibilità

Servizi Managed Service per Apache Spark