Componenti di Managed Service per Apache Spark

Questo documento fornisce una panoramica dei diversi tipi di componenti disponibili nei cluster Managed Service per Apache Spark. La comprensione di questi componenti è essenziale per configurare i cluster in modo da includere gli strumenti e i servizi necessari per i carichi di lavoro di Big Data. I componenti di Managed Service per Apache Spark sono classificati come componenti installati, facoltativi o di azioni di inizializzazione.

Tipi di componenti

I cluster Managed Service per Apache Spark includono i seguenti tipi di componenti:

  • Componenti installati: componenti installati nell'immagine e attivati quando viene creato il cluster.

  • Componenti facoltativi: componenti che selezioni per installare e utilizzare nel cluster quando lo crei. Managed Service per Apache Spark installa e attiva i componenti facoltativi a seconda della versione dell'immagine del cluster come segue:

    • Versioni immagine 2.2 e precedenti: i componenti facoltativi vengono installati automaticamente. I componenti facoltativi selezionati vengono attivati e quelli non selezionati vengono disinstallati al momento della creazione del cluster.

    • Versioni immagine 2.3 e successive: tutti i componenti facoltativi vengono installati durante la creazione del cluster, ad eccezione dei componenti facoltativi Jupyter, Iceberg e Delta Lake, che sono preinstallati nelle versioni immagine 2.3 e successive. I componenti facoltativi preinstallati vengono rimossi da un cluster con versione immagine 2.3 o successiva se non sono abilitati al momento della creazione del cluster. Per ulteriori informazioni, consulta Versioni di rilascio di Managed Service per Apache Spark 2.3.x.

  • Componenti di azioni di inizializzazione: componenti installati in un cluster nell'ambito di un'azione di inizializzazione specificata al momento della creazione del cluster.

I componenti facoltativi vengono installati in un cluster prima dell'esecuzione delle azioni di inizializzazione nel cluster.

Le pagine della versione immagine di Managed Service per Apache Spark elencano i componenti e i tipi di componenti disponibili nelle ultime release di immagini di Managed Service per Apache Spark.

I componenti facoltativi presentano i seguenti vantaggi rispetto alle azioni di inizializzazione utilizzate per installare i componenti:

  • I componenti facoltativi vengono testati come compatibili con versioni specifiche di Managed Service per Apache Spark.
  • I componenti facoltativi vengono abilitati con un parametro di creazione del cluster; le azioni di inizializzazione richiedono uno script.

Componenti facoltativi disponibili

Componente facoltativo Nome componente
nei comandi di Google Cloud CLI e nelle richieste API
Versione immagine Fase di rilascio
Delta Lake DELTA 2.2.46 e versioni successive GA
Docker DOCKER 1.5 e versioni successive GA
Flink FLINK 1.5 e versioni successive GA
HBase HBASE 1.5 e versioni successive
(non disponibile in 2.1 e versioni successive)
Deprecato
Hive WebHCat HIVE_WEBHCAT 1.3 e versioni successive GA
Hudi HUDI 1.5 e versioni successive GA
Iceberg ICEBERG 2.2 e versioni successive GA
Blocco note Jupyter JUPYTER 1.3 e versioni successive GA
Pig PIG 1.5* e versioni successive GA
Presto PRESTO 1.3 e versioni successive
(non disponibile in 2.1 e versioni successive)
GA
Ranger RANGER 1.3 e versioni successive GA
Solr SOLR 1.3 e versioni successive GA
Trino TRINO 2.1 e versioni successive GA
Blocco note Zeppelin ZEPPELIN 1.3 e versioni successive GA
Zookeeper ZOOKEEPER 1.0 e versioni successive GA

Note:

  • Apache Pig è un componente facoltativo nelle versioni immagine 2.3 e successive. Era preinstallato nelle versioni immagine 2.2 e precedenti.

Aggiungere componenti facoltativi

Console

  1. Nella Google Cloud console, vai alla pagina Crea un cluster di Managed Service per Apache Spark.

    Vai a Crea un cluster

    Il riquadro Configura cluster è selezionato.

  2. Nella sezione Componenti, in Componenti facoltativi, seleziona uno o più componenti da installare nel cluster.

Google Cloud CLI

Per creare un cluster Managed Service per Apache Spark e installare uno o più componenti facoltativi nel cluster, utilizza il gcloud beta dataproc clusters create cluster-name comando con il --optional-components flag.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

I componenti facoltativi possono essere specificati tramite l'API Managed Service per Apache Spark utilizzando SoftwareConfig.Component come parte di una clusters.create.