Questo documento fornisce una panoramica dei diversi tipi di componenti disponibili nei cluster Dataproc. La comprensione di questi componenti è essenziale per configurare i cluster in modo da includere gli strumenti e i servizi necessari per i carichi di lavoro di Big Data. I componenti Dataproc sono classificati come componenti installati, facoltativi o di azioni di inizializzazione.
Tipi di componenti
I cluster Dataproc includono i seguenti tipi di componenti:
Componenti installati: componenti installati nell'immagine e attivati quando viene creato il cluster.
Componenti facoltativi: componenti che selezioni per l'installazione e l'utilizzo nel cluster quando lo crei. Dataproc installa e attiva i componenti facoltativi a seconda della versione dell'immagine del cluster come segue:
2.2e versioni immagine precedenti: i componenti facoltativi vengono installati automaticamente. I componenti facoltativi selezionati vengono attivati e quelli non selezionati vengono disinstallati al momento della creazione del cluster.Versioni immagine
2.3e successive: tutti i componenti facoltativi vengono installati durante la creazione del cluster, ad eccezione dei componenti facoltativi Jupyter, Iceberg e Delta Lake, che sono preinstallati nelle versioni immagine2.3e successive. I componenti facoltativi preinstallati vengono rimossi da un cluster con versione immagine2.3o successiva se non sono abilitati al momento della creazione del cluster. Per ulteriori informazioni, consulta Versioni di rilascio di Dataproc 2.3.x.
Componenti di azioni di inizializzazione: componenti installati in un cluster nell'ambito di un'azione di inizializzazione specificata al momento della creazione di un cluster.
I componenti facoltativi vengono installati in un cluster prima dell'esecuzione delle azioni di inizializzazione sul cluster.
Le pagine della versione immagine di Dataproc elencano i componenti e i tipi di componenti disponibili nelle ultime release delle immagini di Dataproc.
I componenti facoltativi presentano i seguenti vantaggi rispetto alle azioni di inizializzazione utilizzate per installare i componenti:
- I componenti facoltativi sono testati come compatibili con versioni specifiche di Dataproc.
- I componenti facoltativi vengono abilitati con un parametro di creazione del cluster; le azioni di inizializzazione richiedono uno script.
Componenti facoltativi disponibili
| Componente facoltativo | Nome del componente nei comandi di Google Cloud CLI e nelle richieste API |
Versione immagine | Stadio di rilascio |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 e versioni successive | GA |
| Docker | DOCKER | 1.5 e versioni successive | GA |
| Flink | FLINK | 1.5 e versioni successive | GA |
| HBase | HBASE | 1.5 e versioni successive (non disponibile in 2.1 e versioni successive) |
Deprecato |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 e versioni successive | GA |
| Hudi | HUDI | 1.5 e versioni successive | GA |
| Iceberg | ICEBERG | 2.2 e versioni successive | GA |
| Blocco note Jupyter | JUPYTER | 1.3 e versioni successive | GA |
| Pig | PIG | 1.5* e versioni successive | GA |
| Presto | PRESTO | 1.3 e versioni successive (non disponibile in 2.1 e versioni successive) |
GA |
| Ranger | RANGER | 1.3 e versioni successive | GA |
| Solr | SOLR | 1.3 e versioni successive | GA |
| Trino | TRINO | 2.1 e versioni successive | GA |
| Blocco note Zeppelin | ZEPPELIN | 1.3 e versioni successive | GA |
| Zookeeper | ZOOKEEPER | 1.0 e versioni successive | GA |
Note:
- Apache Pig è un componente facoltativo nelle versioni immagine 2.3 e successive. Era
preinstallato nelle versioni immagine
2.2e precedenti.
Aggiungere componenti facoltativi
Console
- Nella Google Cloud console, vai alla pagina Dataproc
Crea un cluster.
Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti, in Componenti facoltativi, seleziona uno o più componenti da installare nel cluster.
Google Cloud CLI
Per creare un cluster Dataproc e installare uno o più
componenti facoltativi nel cluster, utilizza il
gcloud beta dataproc clusters create cluster-name
comando con il --optional-components flag.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
I componenti facoltativi possono essere specificati tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una clusters.create.