Dieses Dokument bietet eine Übersicht über die verschiedenen Arten von Komponenten, die in Managed Service for Apache Spark-Clustern verfügbar sind. Es ist wichtig, diese Komponenten zu verstehen, um Ihre Cluster so zu konfigurieren, dass sie die erforderlichen Tools und Dienste für Ihre Big-Data-Arbeitslasten enthalten. Managed Service for Apache Spark-Komponenten werden als installierte, optionale oder Initialisierungsaktionskomponenten kategorisiert.
Komponententypen
Managed Service for Apache Spark-Cluster enthalten die folgenden Arten von Komponenten:
Installierte Komponenten: Komponenten, die im Image installiert und bei der Clustererstellung aktiviert werden.
Optionale Komponenten: Komponenten, die Sie beim Erstellen des Clusters auswählen, um sie auf dem Cluster zu installieren und zu verwenden. Managed Service for Apache Spark installiert und aktiviert optionale Komponenten je nach Cluster-Image-Version so:
2.2und frühere Image-Versionen: Optionale Komponenten werden automatisch installiert. Ausgewählte optionale Komponenten werden bei der Clustererstellung aktiviert und nicht ausgewählte optionale Komponenten werden deinstalliert.Image-Versionen
2.3und höher: Alle optionalen Komponenten werden bei der Clustererstellung installiert, mit Ausnahme der optionalen Komponenten „Jupyter“, „Iceberg“ und „Delta Lake“, die in Image-Versionen2.3und höher vorinstalliert sind. Vorinstallierte optionale Komponenten werden aus einem Cluster mit einer Image-Version ab2.3entfernt, wenn sie beim Erstellen des Clusters nicht aktiviert sind. Weitere Informationen finden Sie unter Managed Service for Apache Spark 2.3.x-Release-Versionen.
Initialisierungsaktionskomponenten: Komponenten, die im Rahmen einer Initialisierungsaktion, die Sie beim Erstellen eines Clusters angeben, in einem Cluster installiert werden.
Optionale Komponenten werden in einem Cluster installiert, bevor Initialisierungsaktionen auf dem Cluster ausgeführt werden.
Auf den Seiten zu den Image-Versionen von Managed Service for Apache Spark werden die Komponenten und Komponententypen aufgeführt, die in den neuesten Image-Releases von Managed Service for Apache Spark verfügbar sind.
Optionale Komponenten haben gegenüber Initialisierungsaktionen, die zum Installieren von Komponenten verwendet werden, die folgenden Vorteile:
- Optionale Komponenten werden auf Kompatibilität mit bestimmten Managed Service for Apache Spark-Versionen getestet.
- Optionale Komponenten werden mit einem Parameter für die Clustererstellung aktiviert. Für Initialisierungsaktionen ist ein Skript erforderlich.
Verfügbare optionale Komponenten
| Optionale Komponente | Komponentenname in Google Cloud CLI-Befehlen und API-Anfragen |
Image-Version | Releasestufe |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 oder höher | GA |
| Docker | DOCKER | 1.5 oder höher | GA |
| Flink | FLINK | 1.5 oder höher | AV |
| HBase | HBASE | 1.5 oder höher (nicht in 2.1 und höher verfügbar) |
Eingestellte Funktionen |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 oder höher | GA |
| Hudi | HUDI | 1.5 oder höher | GA |
| Eisberg | ICEBERG | 2.2 und höher | GA |
| Jupyter-Notebook | JUPYTER | 1.3 oder höher | GA |
| Pig | PIG | 1.5* oder höher | GA |
| Presto | PRESTO | 1.3 oder höher (nicht in 2.1 und höher verfügbar) |
GA |
| Ranger | RANGER | 1.3 oder höher | AV |
| Solr | SOLR | 1.3 oder höher | GA |
| Trino | TRINO | 2.1 oder höher | GA |
| Zeppelin-Notebook | ZEPPELIN | 1.3 oder höher | GA |
| ZooKeeper | ZOOKEEPER | 1.0 oder höher | GA |
Hinweise:
- Apache Pig ist eine optionale Komponente in den Image-Versionen 2.3 und höher. Sie war in
2.2und früheren Bildversionen vorinstalliert.
Optionale Komponenten hinzufügen
Google Cloud Console
- Öffnen Sie in der Google Cloud Console die Seite Cluster erstellen.
- Klicken Sie auf Zusätzliche Konfiguration, um den Bereich zu maximieren.
- Bearbeiten Sie Optionale Komponenten.
- Wählen Sie im geöffneten Bereich die Kästchen für die optionalen Komponenten aus, die Sie in Ihrem Cluster installieren möchten, und klicken Sie dann auf Speichern.
gcloud-CLI
Verwenden Sie zum Erstellen eines Managed Service for Apache Spark-Clusters und zur Installation einer oder mehrerer optionaler Komponenten im Cluster den Befehl gcloud beta dataproc clusters create cluster-name mit dem Flag --optional-components.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
Optionale Komponenten können über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.