I cluster Dataproc includono i seguenti tipi di componenti:
Componenti installati: componenti installati nell'immagine e attivati quando viene creato il cluster.
Componenti facoltativi: i componenti che selezioni per l'installazione e l'utilizzo sul cluster quando lo crei. Dataproc installa e attiva i componenti facoltativi a seconda della versione dell'immagine del cluster come segue:
2.2e versioni precedenti dell'immagine: i componenti facoltativi vengono installati automaticamente. I componenti facoltativi selezionati vengono attivati e quelli non selezionati vengono disinstallati durante la creazione del cluster.Versioni dell'immagine
2.3e successive: tutti i componenti facoltativi vengono installati durante la creazione del cluster, ad eccezione dei componenti facoltativi Jupyter, Iceberg e Delta Lake, che sono preinstallati nelle versioni dell'immagine2.3e successive. I componenti opzionali preinstallati vengono rimossi da un cluster di versione immagine2.3o successive se non sono attivati al momento della creazione del cluster. Per saperne di più, consulta Versioni di rilascio di Dataproc 2.3.x.
Componenti dell'azione di inizializzazione: componenti installati su un cluster nell'ambito di un'azione di inizializzazione che specifichi quando crei un cluster.
I componenti facoltativi vengono installati su un cluster prima dell'esecuzione delle azioni di inizializzazione sul cluster.
Le pagine delle versioni immagine di Dataproc elencano i componenti e i tipi di componenti disponibili nelle ultime release delle immagini Dataproc.
I componenti facoltativi presentano i seguenti vantaggi rispetto alle azioni di inizializzazione utilizzate per installare i componenti:
- I componenti facoltativi vengono testati per verificarne la compatibilità con versioni specifiche di Dataproc.
- I componenti opzionali vengono abilitati con un parametro di creazione del cluster; le azioni di inizializzazione richiedono uno script.
Componenti facoltativi disponibili
| Componente facoltativo | Nome componente nei comandi Google Cloud CLI e nelle richieste API |
Versione immagine | Fase di rilascio |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 e versioni successive | GA |
| Docker | DOCKER | 1.5 e versioni successive | GA |
| Flink | FLINK | 1.5 e versioni successive | GA |
| HBase | HBASE | 1.5 e versioni successive (non disponibile in 2.1 e versioni successive) |
Deprecato |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 e versioni successive | GA |
| Hudi | HUDI | 1.5 e versioni successive | GA |
| Iceberg | ICEBERG | 2.2 e versioni successive | GA |
| Jupyter Notebook | JUPYTER | 1.3 e versioni successive | GA |
| Maiale | PIG | 1.5* e versioni successive | GA |
| Presto | PRESTO | 1.3 e versioni successive (non disponibile in 2.1 e versioni successive) |
GA |
| Ranger | RANGER | 1.3 e versioni successive | GA |
| Solr | SOLR | 1.3 e versioni successive | GA |
| Trino | TRINO | 2.1 e versioni successive | GA |
| Zeppelin Notebook | ZEPPELIN | 1.3 e versioni successive | GA |
| Zookeeper | ZOOKEEPER | 1.0 e versioni successive | GA |
Note:
- Apache Pig è un componente facoltativo nelle versioni immagine 2.3 e successive. Era
preinstallato in
2.2e nelle versioni precedenti delle immagini.
Aggiungere componenti facoltativi
Console
- Nella console Google Cloud , vai alla pagina Dataproc
Crea un cluster.
Il riquadro Configura cluster è selezionato.
- Nella sezione Componenti, in Componenti facoltativi, seleziona uno o più componenti da installare sul cluster.
Google Cloud CLI
Per creare un cluster Dataproc e installare uno o più componenti facoltativi sul cluster, utilizza il comando gcloud beta dataproc clusters create cluster-name con il flag --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
I componenti facoltativi possono essere specificati tramite l'API Dataproc utilizzando SoftwareConfig.Component nell'ambito di una richiesta clusters.create.