Questo documento fornisce una panoramica dei diversi tipi di componenti disponibili nei cluster Managed Service for Apache Spark. La comprensione di questi componenti è essenziale per configurare i cluster in modo da includere gli strumenti e i servizi necessari per i carichi di lavoro Big Data. I componenti di Managed Service for Apache Spark sono classificati come componenti installati, facoltativi o di azioni di inizializzazione.
Tipi di componenti
I cluster Managed Service for Apache Spark includono i seguenti tipi di componenti:
Componenti installati: componenti installati nell'immagine e attivati quando viene creato il cluster.
Componenti facoltativi: componenti che selezioni per l'installazione e l'utilizzo nel cluster quando lo crei. Managed Service for Apache Spark installa e attiva i componenti facoltativi a seconda della versione dell'immagine del cluster come segue:
Versioni immagine
2.2e precedenti: i componenti facoltativi vengono installati automaticamente. I componenti facoltativi selezionati vengono attivati e quelli non selezionati vengono disinstallati al momento della creazione del cluster.Versioni immagine
2.3e successive: tutti i componenti facoltativi vengono installati durante la creazione del cluster, ad eccezione dei componenti facoltativi Jupyter, Iceberg e Delta Lake, che sono preinstallati nelle versioni immagine2.3e successive. I componenti facoltativi preinstallati vengono rimossi da un cluster con versione immagine2.3o successiva se non sono abilitati al momento della creazione del cluster. Per ulteriori informazioni, consulta Versioni di rilascio di Managed Service for Apache Spark 2.3.x.
Componenti di azioni di inizializzazione: componenti installati in un cluster nell'ambito di un'azione di inizializzazione specificata al momento della creazione del cluster.
I componenti facoltativi vengono installati in un cluster prima dell'esecuzione delle azioni di inizializzazione nel cluster.
Le pagine della versione dell'immagine di Managed Service for Apache Spark elencano i componenti e i tipi di componenti disponibili nelle ultime release delle immagini di Managed Service for Apache Spark.
I componenti facoltativi presentano i seguenti vantaggi rispetto alle azioni di inizializzazione utilizzate per installare i componenti:
- I componenti facoltativi sono testati come compatibili con versioni specifiche di Managed Service for Apache Spark.
- I componenti facoltativi vengono abilitati con un parametro di creazione del cluster; le azioni di inizializzazione richiedono uno script.
Componenti facoltativi disponibili
| Componente facoltativo | Nome del componente nei comandi Google Cloud CLI e nelle richieste API |
Versione immagine | Fase di rilascio |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 e versioni successive | GA |
| Docker | DOCKER | 1.5 e versioni successive | GA |
| Flink | FLINK | 1.5 e versioni successive | GA |
| HBase | HBASE | 1.5 e versioni successive (non disponibile in 2.1 e versioni successive) |
Deprecato |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 e versioni successive | GA |
| Hudi | HUDI | 1.5 e versioni successive | GA |
| Iceberg | ICEBERG | 2.2 e versioni successive | GA |
| Blocco note Jupyter | JUPYTER | 1.3 e versioni successive | GA |
| Pig | PIG | 1.5* e versioni successive | GA |
| Presto | PRESTO | 1.3 e versioni successive (non disponibile in 2.1 e versioni successive) |
GA |
| Ranger | RANGER | 1.3 e versioni successive | GA |
| Solr | SOLR | 1.3 e versioni successive | GA |
| Trino | TRINO | 2.1 e versioni successive | GA |
| Blocco note Zeppelin | ZEPPELIN | 1.3 e versioni successive | GA |
| ZooKeeper | ZOOKEEPER | 1.0 e versioni successive | GA |
Note:
- Apache Pig è un componente facoltativo nelle versioni immagine 2.3 e successive. Era preinstallato nelle versioni immagine
2.2e precedenti.
Aggiungere componenti facoltativi
Google Cloud Console
- Nella Google Cloud console, apri la pagina Crea cluster.
- Fai clic su Configurazione aggiuntiva per espandere la sezione.
- Modifica Componenti facoltativi.
- Nel riquadro che si apre, seleziona le caselle di controllo per i componenti facoltativi che vuoi installare nel cluster, quindi fai clic su Salva.
gcloud CLI
Per creare un cluster Managed Service for Apache Spark e installare uno o più
componenti facoltativi nel cluster, utilizza il
gcloud beta dataproc clusters create cluster-name
comando con il --optional-components flag.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
API REST
I componenti facoltativi possono essere specificati tramite l'API Dataproc utilizzando SoftwareConfig.Component come parte di una clusters.create.