Dataproc-Komponenten

Dieses Dokument bietet eine Übersicht über die verschiedenen Arten von Komponenten, die in Dataproc-Clustern verfügbar sind. Das Verständnis dieser Komponenten ist unerlässlich, um Ihre Cluster so zu konfigurieren, dass sie die erforderlichen Tools und Dienste für Ihre Big-Data-Arbeitslasten enthalten. Dataproc-Komponenten werden als installierte, optionale oder Initialisierungsaktionskomponenten kategorisiert.

Komponententypen

Dataproc-Cluster bieten die folgenden Arten von Komponenten:

  • Installierte Komponenten: Komponenten, die im Image installiert und aktiviert werden, wenn der Cluster erstellt wird.

  • Optionale Komponenten: Komponenten, die Sie beim Erstellen des Clusters auswählen, um sie in Ihrem Cluster zu installieren und zu verwenden. Dataproc installiert und aktiviert optionale Komponenten je nach Cluster-Image-Version wie folgt:

    • Image-Versionen 2.2 und früher: Optionale Komponenten werden automatisch installiert. Ausgewählte optionale Komponenten werden beim Erstellen des Clusters aktiviert und nicht ausgewählte optionale Komponenten werden deinstalliert.

    • und höher2.3 Image-Versionen: Alle optionalen Komponenten werden während der Clustererstellung installiert, mit Ausnahme der optionalen Komponenten Jupyter, Iceberg und Delta Lake, die in 2.3 und höher Image-Versionen vorinstalliert sind. Vorinstallierte optionale Komponenten werden aus einem 2.3 oder höher Image-Version Cluster entfernt, wenn sie beim Erstellen des Clusters nicht aktiviert sind. Weitere Informationen finden Sie unter Dataproc-Versionen 2.3.x.

  • Komponenten für Initialisierungsaktionen: Komponenten, die im Rahmen einer Initialisierungsaktion in einem Cluster installiert werden, die Sie beim Erstellen eines Clusters angeben.

Optionale Komponenten werden in einem Cluster installiert, bevor Initialisierungsaktionen auf dem Cluster ausgeführt werden.

Auf den Seiten zu den Dataproc-Image-Versionen sind die Komponenten und Komponententypen aufgeführt, die in den neuesten Dataproc-Image-Releases verfügbar sind.

Optionale Komponenten haben gegenüber Initialisierungsaktionen die zum Installieren von Komponenten verwendet werden, die folgenden Vorteile:

  • Optionale Komponenten werden auf Kompatibilität mit bestimmten Dataproc-Versionen getestet.
  • Optionale Komponenten werden mit einem Parameter für die Clustererstellung aktiviert; für Initialisierungsaktionen ist ein Skript erforderlich.

Verfügbare optionale Komponenten

Optionale Komponente Komponentenname
in gcloud-Befehlen und API-Anfragen
Image-Version Releasestufe
Delta Lake DELTA 2.2.46 oder höher GA
Docker DOCKER 1.5 oder höher GA
Flink FLINK 1.5 oder höher AV
HBase HBASE 1.5 oder höher
(nicht in 2.1 und höher verfügbar)
Eingestellte Funktionen
Hive WebHCat HIVE_WEBHCAT 1.3 oder höher GA
Hudi HUDI 1.5 oder höher GA
Iceberg ICEBERG 2.2 oder höher GA
Jupyter-Notebook JUPYTER 1.3 oder höher GA
Pig PIG 1.5* oder höher GA
Presto PRESTO 1.3 oder höher
(nicht in 2.1 und höher verfügbar)
GA
Ranger RANGER 1.3 oder höher AV
Solr SOLR 1.3 oder höher GA
Trino TRINO 2.1 oder höher GA
Zeppelin-Notebook ZEPPELIN 1.3 oder höher AV
Zookeeper ZOOKEEPER 1.0 oder höher GA

Hinweise:

  • Apache Pig ist eine optionale Komponente in Image-Versionen 2.3 und höher. In Image-Versionen 2.2 und früher war sie vorinstalliert.

Optionale Komponenten hinzufügen

Console

  1. Rufen Sie in der Google Cloud Console die Dataproc Seite **Cluster erstellen** auf.

    Zu „Cluster erstellen“

    Der Bereich Cluster einrichten ist ausgewählt.

  2. Wählen Sie im Abschnitt Komponenten unter Optionale Komponenten eine oder mehrere Komponenten aus, die auf Ihrem Cluster installiert werden sollen.

Google Cloud CLI

Verwenden Sie zum Erstellen eines Dataproc-Clusters und zur Installation einer oder mehrerer optionaler Komponenten im Cluster den gcloud beta dataproc clusters create cluster-name Befehl mit dem --optional-components Flag.

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Optionale Komponenten können über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create Anfrage angegeben werden.