In diesem Dokument finden Sie eine Übersicht über die verschiedenen Arten von Komponenten, die in Managed Service for Apache Spark-Clustern verfügbar sind. Das Verständnis dieser Komponenten ist wichtig, um Ihre Cluster so zu konfigurieren, dass sie die erforderlichen Tools und Dienste für Ihre Big-Data-Arbeitslasten enthalten. Managed Service for Apache Spark-Komponenten werden als installierte, optionale oder Initialisierungsaktionskomponenten kategorisiert.
Komponententypen
Managed Service for Apache Spark-Cluster enthalten die folgenden Arten von Komponenten:
Installierte Komponenten: Komponenten, die im Image installiert und beim Erstellen des Clusters aktiviert werden.
Optionale Komponenten: Komponenten, die Sie beim Erstellen des Clusters installieren und in Ihrem Cluster verwenden möchten. Managed Service for Apache Spark installiert und aktiviert optionale Komponenten je nach Cluster-Image-Version so:
Image-Versionen
2.2und früher: Optionale Komponenten werden automatisch installiert. Ausgewählte optionale Komponenten werden beim Erstellen des Clusters aktiviert und nicht ausgewählte optionale Komponenten werden deinstalliert.Image-Versionen
2.3und höher: Alle optionalen Komponenten werden beim Erstellen des Clusters installiert, mit Ausnahme der optionalen Komponenten Jupyter, Iceberg und Delta Lake, die in Image-Versionen2.3und höher vorinstalliert sind. Vorinstallierte optionale Komponenten werden aus einem Cluster mit Image-Version2.3oder höher entfernt, wenn sie beim Erstellen des Clusters nicht aktiviert sind. Weitere Informationen finden Sie unter Managed Service for Apache Spark 2.3.x-Release-Versionen.
Komponenten für Initialisierungsaktionen: Komponenten, die im Rahmen einer Initialisierungsaktion in einem Cluster installiert werden, die Sie beim Erstellen eines Clusters angeben.
Optionale Komponenten werden in einem Cluster installiert, bevor Initialisierungsaktionen auf dem Cluster ausgeführt werden.
Auf den Seiten zu den Managed Service for Apache Spark-Image-Versionen sind die Komponenten und Komponententypen aufgeführt, die in den neuesten Managed Service for Apache Spark-Image-Releases verfügbar sind.
Optionale Komponenten haben gegenüber Initialisierungsaktionen, die zum Installieren von Komponenten verwendet werden, folgende Vorteile:
- Optionale Komponenten werden auf Kompatibilität mit bestimmten Managed Service for Apache Spark-Versionen getestet.
- Optionale Komponenten werden mit einem Parameter für die Clustererstellung aktiviert. Für Initialisierungsaktionen ist ein Skript erforderlich.
Verfügbare optionale Komponenten
| Optionale Komponente | Komponentenname in Google Cloud CLI-Befehlen und API-Anfragen |
Image-Version | Releasestufe |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 oder höher | GA |
| Docker | DOCKER | 1.5 oder höher | GA |
| Flink | FLINK | 1.5 oder höher | AV |
| HBase | HBASE | 1.5 oder höher (nicht in 2.1 und höher verfügbar) |
Eingestellte Funktionen |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 oder höher | GA |
| Hudi | HUDI | 1.5 oder höher | GA |
| Iceberg | ICEBERG | 2.2 oder höher | GA |
| Jupyter-Notebook | JUPYTER | 1.3 oder höher | GA |
| Pig | PIG | 1.5* oder höher | GA |
| Presto | PRESTO | 1.3 oder höher (nicht in 2.1 und höher verfügbar) |
GA |
| Ranger | RANGER | 1.3 oder höher | AV |
| Solr | SOLR | 1.3 oder höher | GA |
| Trino | TRINO | 2.1 oder höher | GA |
| Zeppelin-Notebook | ZEPPELIN | 1.3 oder höher | AV |
| Zookeeper | ZOOKEEPER | 1.0 oder höher | GA |
Hinweise:
- Apache Pig ist eine optionale Komponente in Image-Versionen 2.3 und höher. In Image-Versionen
2.2und früher war sie vorinstalliert.
Optionale Komponenten hinzufügen
Console
- Wechseln Sie in der Google Cloud Console zur Seite Cluster erstellen von Managed Service for Apache Spark.
Der Bereich Cluster einrichten ist ausgewählt.
- Wählen Sie im Bereich Komponenten unter Optionale Komponenten eine oder mehrere Komponenten aus, die in Ihrem Cluster installiert werden sollen.
Google Cloud CLI
Verwenden Sie zum Erstellen eines Managed Service for Apache Spark-Clusters und zur Installation einer oder mehrerer
optionaler Komponenten im Cluster den
gcloud beta dataproc clusters create cluster-name
Befehl mit dem --optional-components Flag.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
Optionale Komponenten können über die Managed Service for Apache Spark API mit SoftwareConfig.Component als Teil einer clusters.create Anfrage angegeben werden.