Dataproc verwendet Images, um nützliche Google Cloud Connectors sowie Apache Spark- und Apache Hadoop-Komponenten zu einem Paket zusammenzufassen, das in einem Dataproc-Cluster bereitgestellt werden kann. Diese Images enthalten das Basis-Betriebssystem (Debian oder Ubuntu) für den Cluster sowie Kernkomponenten und optionale Komponenten , die für die Ausführung von Jobs erforderlich sind, z. B. Spark, Hadoop und Hive. Die Images werden regelmäßig mit neuen Verbesserungen und Funktionen aktualisiert. Mit der Dataproc-Versionsverwaltung können Sie beim Erstellen von Clustern Sätze von Softwareversionen auswählen.
So funktioniert die Versionierung
Wenn ein Image erstellt wird, erhält es eine Image-Versionsnummer im folgenden Format:
version_major.version_minor.version_sub_minor-os_distribution
Die folgenden Betriebssystem-Distributionen werden gepflegt:
| Betriebssystem-Distributionscode | Betriebssystem-Distribution |
|---|---|
| debian12 | Debian 12 |
| debian10 | Debian 10 |
| debian11 | Debian 11 |
| rocky8 | Rocky Linux 8 |
| rocky9 | Rocky Linux 9 |
| ubuntu18 | Ubuntu 18.04 LTS |
| ubuntu20 | Ubuntu 20.04 LTS |
| ubuntu22 | Ubuntu 22.04 LTS |
Weitere Informationen zu zuvor unterstützten Betriebssystem Distributionen finden Sie unter Alte Image-Versionen.
Es wird empfohlen, die Image-Version major.minor für Produktionsumgebungen oder in dem Fall anzugeben, dass die Kompatibilität mit bestimmten Komponentenversionen wichtig ist. Die Sub-Minor- und Betriebssystem-Distributionen werden automatisch auf die neueste wöchentliche Version eingestellt.
Versionen auswählen
Beim Erstellen eines neuen Dataproc-Clusters wird standardmäßig die neueste verfügbare Debian-Image-Version verwendet. Sie können beim Erstellen eines Clusters eine
Debian-, Rocky Linux- oder Ubuntu-Image-Version auswählen. Weitere Informationen finden Sie unter der
Liste der Dataproc-Image-Versionen.
Bei der Angabe von Debian-basierten Images können Sie das Suffix für den Betriebssystem-Distributionscode weglassen, indem Sie beispielsweise 2.0 angeben, um das 2.0-debian10 Image auszuwählen.
Das Betriebssystemsuffix muss dagegen verwendet werden, um ein Rocky Linux- oder Ubuntu-basiertes Image auszuwählen, z. B. durch Angabe von 2.0-ubuntu18.
gcloud-Befehl
Wenn Sie den Befehl gcloud dataproc clusters create verwenden, können Sie mit dem Argument --image-version eine Image-Version für den neuen Cluster angeben.
Beispiel für ein Debian-Image:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --region=REGION
Beispiel für ein Ubuntu-Image:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0-ubuntu18 \ --region=REGION
Es wird empfohlen, die Sub-Minor-Version wegzulassen, damit die neueste Sub-Minor-Version verwendet wird. Bei Bedarf kann die Sub-Minor-Version jedoch angegeben werden, z. B. 2.0.20.
Sie können Ihre aktuelle Version mit der Google Cloud CLI prüfen.
gcloud dataproc clusters describe CLUSTER_NAME \ --region=REGION
REST API
Sie können das imageVersion-Feld SoftwareConfig als Teil einer cluster.create-API-Anfrage angeben.
Beispiel
POST /v1/projects/project-id/regions/us-central1/clusters/
{
"projectId": "project-id",
"clusterName": "example-cluster",
"config": {
"configBucket": "",
"gceClusterConfig": {
"subnetworkUri": "default",
"zoneUri": "us-central1-b"
},
"masterConfig": {
...
}
},
"workerConfig": {
...
}
},
"softwareConfig": {
"imageVersion": "2.0"
}
}
}
Console
Öffnen Sie die Dataproc-Seite Cluster erstellen. Der Bereich Cluster einrichten ist ausgewählt. Im Bereich Image-Typ und Version wird im Abschnitt Versioning das Image angezeigt, das beim Erstellen des Clusters verwendet wird. Das Veröffentlichungsdatum des Images wird ebenfalls angezeigt. Anfänglich wird das Standard-Image, die neueste verfügbare Debian-Version, angezeigt. Klicken Sie auf Ändern , um eine Liste der verfügbaren Images aufzurufen. Sie können ein Standard- oder benutzerdefiniertes Image für Ihren Cluster auswählen.
Wann neue Versionen erstellt werden
Neue Hauptversionen werden regelmäßig erstellt, um mindestens eine der folgenden Komponenten einzubeziehen:
- Hauptversionen für:
- Spark, Hadoop und andere Big Data-Komponenten
- Google Cloud Connectors
- Größere Änderungen oder Aktualisierungen an der Dataproc-Funktionalität
Vor der Veröffentlichung einer neuen Hauptversion werden neue Vorabversionen (mit dem Suffix -RC) veröffentlicht:
- Vorabversionen von Images sind nicht für die Verwendung in Produktionsarbeitslasten vorgesehen.
- Die Komponentenversionen von Vorabversionen von Images werden möglicherweise in der GA-Image-Version nach der Vorabversion auf die neueste verfügbare Komponentenversion aktualisiert.
Neue Nebenversionen werden regelmäßig erstellt, um mindestens eine der folgenden Komponenten einzubeziehen:
- Nebenversionen und Aktualisierungen für:
- Spark, Hadoop und andere Big Data-Komponenten
- Google Cloud Connectors
- Geringfügige Änderungen oder Aktualisierungen an der Dataproc-Funktionalität
Wenn eine Nebenversion neu erstellt wird, wird deren Debian-Image zum Standard der Hauptversion und stellt den neuesten Release der Hauptversion dar.
Neue Sub-Minor-Versionen werden regelmäßig erstellt, um mindestens eine der folgenden Komponenten einzubeziehen:
- Patches oder Korrekturen für eine Komponente im Image
- Upgrades der Sub-Minor-Version von Komponenten
Unterstützung für Image-Version und Dataproc
Nebenversionen des Image werden nach dem ersten GA-Release (General Availability, allgemeine Verfügbarkeit) für 24 Monate unterstützt. In diesem Zeitraum haben Cluster, die diese Image-Versionen verwenden, Anspruch auf Support, um Korrekturen zu erhalten und Cluster mit der neuesten unterstützten Sub-Minor-Version des Image neu zu erstellen. Nachdem das Support-Fenster geschlossen wurde, sind Cluster, die diese Image-Versionen verwenden, nicht mehr supportberechtigt.
Alte Image-Versionen
Zuvor unterstützte Betriebssystem-Distributionen
Die folgenden Betriebssystem-Distributionen wurden zuvor unterstützt:
| Betriebssystem-Distributionscode | Betriebssystem-Distribution | Letzter Patch (Ende des Supports) |
|---|---|---|
| debian9 | Debian 9 | 10. Juli 2020 |
| deb8 | Debian 8 | 26. Oktober 2018 |
Image-Versionen ohne explizite Betriebssystem-Distribution
Vor dem 16. August 2018 wurden Image-Versionen mit Debian 8 erstellt und der Betriebssystem-Distributionscode wurde weggelassen. Sie werden in folgendem Format angegeben:
version_major.version_minor.version_sub_minor
Versionen 0.1 und 0.2
Image-Versionen, die vor der
allgemeinen Verfügbarkeit von Dataproc Version 1.0 als Alpha- oder Betaversionen veröffentlicht wurden,
unterliegen nicht den
Supportrichtlinien von Dataproc.
Wichtige Hinweise zu Versionen
- Image-Versionen enthalten die folgenden Komponenten:
- Kernkomponenten, die auf allen Clustern installiert sind, z. B. Spark, Hadoop und Hive
- Optionale Komponenten die Sie beim Erstellen eines Clusters angeben
- Ihre Dataproc-Cluster werden nicht automatisch aktualisiert, wenn neue Image-Versionen veröffentlicht werden.
- Empfehlungen:
- Führen Sie Cluster mit der neuesten
Sub-Minor-Image-Version aus.
Die Image-Metadaten enthalten das Label
previous-subminor, das auftruegesetzt ist, wenn der Cluster nicht die neueste Sub-Minor-Image-Version verwendet.- So rufen Sie Image-Metadaten auf:
- Führen Sie den folgenden
gcloud compute images list --filterBefehl aus, um den Ressourcennamen eines Dataproc-Image aufzulisten.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12)" - Führen Sie den folgenden Befehl
gcloud compute images describeaus, um Image-Metadaten aufzurufen.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Führen Sie den folgenden
- So rufen Sie Image-Metadaten auf:
- Testen Sie, ob Ihre Anwendungen in Clustern, die mit neuen Image-Versionen erstellt wurden, erfolgreich ausgeführt werden. Dies gilt insbesondere für neue Hauptversionen von Images.