Managed Service for Apache Spark sui cluster utilizza le immagini per raggruppare connettori utili Google Cloude componenti Apache Spark e Apache Hadoop in un unico pacchetto che può essere implementato su un cluster Managed Service for Apache Spark. Queste immagini contengono il sistema operativo di base (Debian o Ubuntu) per il cluster, insieme ai componenti principali e facoltativi necessari per eseguire i job, come Spark, Hadoop e Hive. Queste immagini vengono aggiornate periodicamente per includere nuovi miglioramenti e funzionalità. Il controllo delle versioni di Managed Service for Apache Spark consente di selezionare set di versioni software durante la creazione dei cluster.
Come funziona il controllo delle versioni
Quando viene creata un'immagine, le viene assegnato un numero di versione dell'immagine nel seguente formato:
version_major.version_minor.version_sub_minor-os_distribution
Vengono gestite le seguenti distribuzioni del sistema operativo:
| Codice distribuzione sistema operativo | Distribuzione sistema operativo |
|---|---|
| debian12 | Debian 12 |
| debian10 | Debian 10 |
| debian11 | Debian 11 |
| rocky8 | Rocky Linux 8 |
| rocky9 | Rocky Linux 9 |
| ubuntu18 | Ubuntu 18.04 LTS |
| ubuntu20 | Ubuntu 20.04 LTS |
| ubuntu22 | Ubuntu 22.04 LTS |
Consulta le versioni precedenti delle immagini per le distribuzioni del sistema operativo supportate in precedenza.
La prassi consigliata è specificare la versione dell'immagine major.minor per gli ambienti di produzione o quando è importante la compatibilità con versioni specifiche dei componenti. Le distribuzioni secondarie e del sistema operativo vengono impostate automaticamente sull'ultima release settimanale.
Seleziona versioni
Quando crei un nuovo cluster Managed Service for Apache Spark, per impostazione predefinita viene utilizzata l'ultima versione disponibile dell'immagine Debian. Puoi selezionare una versione dell'immagine Debian, Rocky Linux o Ubuntu durante la creazione di un cluster (consulta l'elenco delle versioni delle immagini di Managed Service for Apache Spark). Quando specifichi immagini basate su Debian, puoi omettere il suffisso del codice di distribuzione del sistema operativo, ad esempio specificando 2.0 per selezionare l'immagine 2.0-debian10. Il suffisso del sistema operativo deve essere utilizzato per selezionare un'immagine basata su Rocky Linux o Ubuntu, ad esempio specificando 2.0-ubuntu18.
Comando g-cloud
Quando utilizzi il comando gcloud dataproc clusters create, puoi
utilizzare l'argomento --image-version per specificare una versione dell'immagine per
il nuovo cluster.
Esempio di immagine Debian:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --region=REGION
Esempio di immagine Ubuntu:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0-ubuntu18 \ --region=REGION
La best practice consiste nell'omettere la versione secondaria in modo che venga utilizzata l'ultima versione secondaria. Tuttavia, se necessario, è possibile specificare la versione secondaria, ad esempio 2.0.20.
Puoi controllare la versione attuale con Google Cloud CLI.
gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION
API REST
Puoi specificare il campo SoftwareConfig
imageVersion
nell'ambito di una
richiesta API
cluster.create.
Esempio
POST /v1/projects/project-id/regions/us-central1/clusters/
{
"projectId": "project-id",
"clusterName": "example-cluster",
"config": {
"configBucket": "",
"gceClusterConfig": {
"subnetworkUri": "default",
"zoneUri": "us-central1-b"
},
"masterConfig": {
...
}
},
"workerConfig": {
...
}
},
"softwareConfig": {
"imageVersion": "2.0"
}
}
}
Console
Apri la pagina Managed Service for Apache Spark Crea un cluster. Il riquadro Configura cluster è selezionato. I campi Tipo di immagine e Versione nella sezione Controllo delle versioni mostrano l'immagine che verrà utilizzata durante la creazione del cluster. Viene visualizzata anche la data di rilascio dell'immagine. Inizialmente, l'immagine predefinita, l'ultima versione di Debian disponibile, viene visualizzata come selezionata. Fai clic su Modifica per visualizzare un elenco delle immagini disponibili. Puoi selezionare un'immagine standard o personalizzata da utilizzare per il tuo cluster.
Quando vengono create nuove versioni
Periodicamente vengono create nuove versioni principali per incorporare uno o più dei seguenti elementi:
- Uscite principali per:
- Spark, Hadoop e altri componenti Big Data
- Google Cloud connettori
- Modifiche o aggiornamenti importanti alla funzionalità Managed Service for Apache Spark
Le nuove versioni di anteprima (con il suffisso -RC) vengono rilasciate prima del rilascio
di una nuova versione principale:
- Le immagini di anteprima non sono destinate all'uso nei workload di produzione.
- Le versioni dei componenti dell'immagine di anteprima potrebbero essere aggiornate all'ultima versione disponibile nella versione immagine GA post-anteprima.
Periodicamente vengono create nuove versioni secondarie per incorporare uno o più dei seguenti elementi:
- Versioni e aggiornamenti secondari per:
- Spark, Hadoop e altri componenti Big Data
- Google Cloud connettori
- Modifiche o aggiornamenti minori alla funzionalità Managed Service for Apache Spark
Quando viene creata una nuova versione secondaria, la relativa immagine Debian diventa quella predefinita per la versione principale e rappresenta l'ultima release della versione principale.
Periodicamente vengono create nuove versioni secondarie per incorporare uno o più dei seguenti elementi:
- Patch o correzioni per un componente nell'immagine
- Upgrade delle versioni secondarie dei componenti
Versione dell'immagine e supporto di Managed Service for Apache Spark
Le versioni secondarie delle immagini sono supportate per 24 mesi dopo il rilascio iniziale della GA (General Availability). Durante questo periodo, i cluster che utilizzano queste versioni delle immagini sono idonei all'assistenza (per ricevere correzioni, ricrea il cluster utilizzando l'ultima versione secondaria delle immagini supportata). Al termine del periodo di assistenza, i cluster che utilizzano le versioni delle immagini non sono idonei all'assistenza.
Versioni precedenti delle immagini
Distribuzioni del sistema operativo supportate in precedenza
In precedenza erano supportate le seguenti distribuzioni del sistema operativo:
| Codice distribuzione sistema operativo | Distribuzione sistema operativo | Ultima patch (fine del supporto) |
|---|---|---|
| debian9 | Debian | 10 luglio 2020 |
| deb8 | Debian | 26 ottobre 2018 |
Versioni dell'immagine senza distribuzione esplicita del sistema operativo
Prima del 16 agosto 2018, le versioni delle immagini erano create con Debian 8 e omettevano il codice di distribuzione del sistema operativo. Sono specificati nel seguente formato:
version_major.version_minor.version_sub_minor
Versioni 0.1 e 0.2
Le versioni delle immagini rilasciate come versioni alpha o beta prima della disponibilità generale della versione 1.0 di Managed Service for Apache Spark non sono soggette alle norme di assistenza di Managed Service for Apache Spark.
Note importanti sul controllo delle versioni
- Le versioni delle immagini contengono i seguenti componenti:
- Componenti principali installati su tutti i cluster, come Spark, Hadoop e Hive
- Componenti facoltativi che specifichi quando crei un cluster
- I cluster Managed Service for Apache Spark non vengono aggiornati automaticamente quando vengono rilasciate nuove versioni
dell'immagine.
- Consigli:
- Esegui i cluster con l'ultima versione immagine secondaria.
I metadati dell'immagine includono un'etichetta
previous-subminor, impostata sutruese il cluster non utilizza la versione immagine secondaria più recente.- Per visualizzare i metadati dell'immagine:
- Esegui questo comando
gcloud compute images list --filterper elencare il nome della risorsa di un'immagine Managed Service for Apache Spark.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12)" - Esegui il seguente comando
gcloud compute images describeper visualizzare i metadati dell'immagine.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Esegui questo comando
- Per visualizzare i metadati dell'immagine:
- Testa e verifica che le tue applicazioni vengano eseguite correttamente sui cluster creati con nuove versioni delle immagini, in particolare quando utilizzi nuove versioni principali delle immagini.