„Managed Service for Apache Spark“ ist der neue Name für das Produkt, das früher als „Dataproc on Compute Engine“ (Clusterbereitstellung) und „Google Cloud Serverless for Apache Spark“ (serverlose Bereitstellung) bekannt war.

Optionale Trino-Komponente für Managed Service for Apache Spark

Sie können zusätzliche Komponenten wie Trino installieren, wenn Sie einen Managed Service for Apache Spark-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Trino-Komponente optional in einem Managed Service for Apache Spark-Cluster installieren können.

Trino ist eine verteilte Open Source-SQL-Abfrage-Engine. Der Trino-Server und die Webbenutzeroberfläche sind standardmäßig an Port 8060 (oder Port 7778, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.

Standardmäßig ist Trino in Managed Service for Apache Spark für die Connectors Hive, BigQuery, Memory, TPCH und TPCDS konfiguriert.

Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:

aus einem lokalen Terminal mit dem Befehl gcloud dataproc jobs submit trino
aus einem Terminalfenster auf dem ersten Masterknoten des Clusters über die trino-Befehlszeile: Trino mit Managed Service for Apache Spark verwenden.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Managed Service for Apache Spark-Cluster erstellen.

Informationen zu den Komponentenversionen, die im jeweiligen Managed Service for Apache Spark-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Managed Service for Apache Spark-Versionen.

Console

Rufen Sie in der Google Cloud Console die Seite Cluster erstellen für Managed Service for Apache Spark auf.
Zur Seite „Cluster erstellen“

Der Bereich Cluster einrichten ist ausgewählt.
Im Bereich „Komponenten“:
- Wählen Sie unter Optionale Komponenten Trino und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.
- Wählen Sie unter „Component Gateway“ die Option „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und auf diese zugreifen).

gcloud-CLI

Verwenden Sie zum Erstellen eines Managed Service for Apache Spark-Clusters, der die Trino-Komponente enthält, den Befehl gcloud dataproc clusters create mit dem Flag --optional-components.

gcloud dataproc clusters create CLUSTER_NAME \
    --optional-components=TRINO \
    --region=region \
    --enable-component-gateway \
    ... other flags

Hinweise:

CLUSTER_NAME: Der Name des Clusters.
REGION: Eine Compute Engine-Region, in der sich der Cluster befindet.

Attribute konfigurieren

Fügen Sie dem Befehl gcloud dataproc clusters create das Flag --properties hinzu, um die Konfigurationsattribute trino, trino-jvm und trino-catalog festzulegen.

Anwendungsattribute:Verwenden Sie Clusterattribute mit dem Präfix trino:, um Trino-Anwendungsattribute zu konfigurieren, z. B. --properties="trino:join-distribution-type=AUTOMATIC".
JVM-Konfigurationsattribute:Verwenden Sie Clusterattribute mit dem Präfix trino-jvm:, um JVM-Attribute für Trino-Koordinator- und Worker-Java-Prozesse zu konfigurieren, z. B. --properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError".
Neue Kataloge erstellen und Katalogattribute hinzufügen:Mit trino-catalog:catalog-name.property-name können Sie Trino-Kataloge konfigurieren.
Beispiel: Das folgende Attribut-Flag kann mit dem Befehl `gcloud dataproc clusters create` verwendet werden, um einen Trino-Cluster mit einem `prodhive`-Hive-Katalog zu erstellen. Unter /usr/lib/trino/etc/catalog/ wird eine prodhive.properties-Datei erstellt, um den Produktkatalog zu aktivieren.
```
--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
```

REST API

Die Trino-Komponente kann über die Managed Service for Apache Spark API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Legen Sie mithilfe der Managed Service for Apache Spark v1 API das Attribut EndpointConfig.enableHttpPortAccess als Teil der Anfrage "clusters.create" auf true fest, um die Verbindung zur Trino-Webbenutzeroberfläche über das Component Gateway zu ermöglichen.

Optionale Trino-Komponente für Managed Service for Apache Spark Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Komponente installieren

Console

gcloud-CLI

Attribute konfigurieren

REST API

Optionale Trino-Komponente für Managed Service for Apache Spark