Componenti Dataproc

Questo documento fornisce una panoramica dei diversi tipi di componenti disponibili nei cluster Dataproc. La comprensione di questi componenti è essenziale per configurare i cluster in modo da includere gli strumenti e i servizi necessari per i carichi di lavoro di Big Data. I componenti Dataproc sono classificati come componenti installati, facoltativi o di azioni di inizializzazione.

Tipi di componenti

I cluster Dataproc includono i seguenti tipi di componenti:

  • Componenti installati: componenti installati nell'immagine e attivati quando viene creato il cluster.

  • Componenti facoltativi: componenti che selezioni per l'installazione e l'utilizzo nel cluster quando lo crei. Dataproc installa e attiva i componenti facoltativi a seconda della versione dell'immagine del cluster come segue:

    • 2.2 e versioni immagine precedenti: i componenti facoltativi vengono installati automaticamente. I componenti facoltativi selezionati vengono attivati e quelli non selezionati vengono disinstallati al momento della creazione del cluster.

    • Versioni immagine 2.3 e successive: tutti i componenti facoltativi vengono installati durante la creazione del cluster, ad eccezione dei componenti facoltativi Jupyter, Iceberg e Delta Lake, che sono preinstallati nelle versioni immagine 2.3 e successive. I componenti facoltativi preinstallati vengono rimossi da un cluster con versione immagine 2.3o successiva se non sono abilitati al momento della creazione del cluster. Per ulteriori informazioni, consulta Versioni di rilascio di Dataproc 2.3.x.

  • Componenti di azioni di inizializzazione: componenti installati in un cluster nell'ambito di un'azione di inizializzazione specificata al momento della creazione di un cluster.

I componenti facoltativi vengono installati in un cluster prima dell'esecuzione delle azioni di inizializzazione sul cluster.

Le pagine della versione immagine di Dataproc elencano i componenti e i tipi di componenti disponibili nelle ultime release delle immagini di Dataproc.

I componenti facoltativi presentano i seguenti vantaggi rispetto alle azioni di inizializzazione utilizzate per installare i componenti:

  • I componenti facoltativi sono testati come compatibili con versioni specifiche di Dataproc.
  • I componenti facoltativi vengono abilitati con un parametro di creazione del cluster; le azioni di inizializzazione richiedono uno script.

Componenti facoltativi disponibili

Componente facoltativo Nome del componente
nei comandi di Google Cloud CLI e nelle richieste API
Versione immagine Stadio di rilascio
Delta Lake DELTA 2.2.46 e versioni successive GA
Docker DOCKER 1.5 e versioni successive GA
Flink FLINK 1.5 e versioni successive GA
HBase HBASE 1.5 e versioni successive
(non disponibile in 2.1 e versioni successive)
Deprecato
Hive WebHCat HIVE_WEBHCAT 1.3 e versioni successive GA
Hudi HUDI 1.5 e versioni successive GA
Iceberg ICEBERG 2.2 e versioni successive GA
Blocco note Jupyter JUPYTER 1.3 e versioni successive GA
Pig PIG 1.5* e versioni successive GA
Presto PRESTO 1.3 e versioni successive
(non disponibile in 2.1 e versioni successive)
GA
Ranger RANGER 1.3 e versioni successive GA
Solr SOLR 1.3 e versioni successive GA
Trino TRINO 2.1 e versioni successive GA
Blocco note Zeppelin ZEPPELIN 1.3 e versioni successive GA
Zookeeper ZOOKEEPER 1.0 e versioni successive GA

Note:

  • Apache Pig è un componente facoltativo nelle versioni immagine 2.3 e successive. Era preinstallato nelle versioni immagine 2.2 e precedenti.

Aggiungere componenti facoltativi

Console

  1. Nella Google Cloud console, vai alla pagina Dataproc Crea un cluster.

    Vai a Crea un cluster

    Il riquadro Configura cluster è selezionato.

  2. Nella sezione Componenti, in Componenti facoltativi, seleziona uno o più componenti da installare nel cluster.

Google Cloud CLI

Per creare un cluster Dataproc e installare uno o più componenti facoltativi nel cluster, utilizza il gcloud beta dataproc clusters create cluster-name comando con il --optional-components flag.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

I componenti facoltativi possono essere specificati tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una clusters.create.