Sie können zusätzliche Komponenten wie Trino installieren, wenn Sie einen Dataproc Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Trino-Komponente optional in einem Dataproc-Cluster installieren können.
Trino ist eine verteilte Open
Source-SQL-Abfrage-Engine. Der Trino-Server und
die Webbenutzeroberfläche sind standardmäßig an Port 8060 (oder Port 7778, wenn Kerberos
aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.
Standardmäßig ist Trino in Dataproc für die Connectors Hive, BigQuery,
Memory, TPCH und TPCDS konfiguriert.
Nachdem Sie einen Cluster mit der Trino-Komponente erstellt haben, können Sie Abfragen ausführen:
- aus einem lokalen Terminal mit dem
gcloud dataproc jobs submit trinoBefehl - aus einem Terminalfenster auf dem ersten Masterknoten des Clusters über die
trinoBefehlszeile: Trino mit Dataproc verwenden
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen.
Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.
Console
- Rufen Sie in der Google Cloud Console die Dataproc
Seite **Cluster erstellen** auf.
Der Bereich Cluster einrichten ist ausgewählt.
- Im Bereich „Komponenten“:
- Wählen Sie unter Optionale Komponenten „Trino“ und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.
- Wählen Sie unter „Component Gateway“ die Option „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).
gcloud-CLI
Zum Erstellen eines Dataproc-Clusters, der die Trino-Komponente enthält,
verwenden Sie den
Befehl gcloud dataproc clusters create
mit dem --optional-components Flag.
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME: Der Name des Clusters.
- REGION: Eine Compute Engine-Region , in der sich der Cluster befindet.
Attribute konfigurieren
Fügen Sie dem
gcloud dataproc clusters create Befehl das --properties Flag hinzu, um die
trino, trino-jvm und trino-catalog
Konfigurationsattribute festzulegen.
-
Anwendungsattribute: Verwenden Sie Clusterattribute mit dem
trino:Präfix, um Trino-Anwendungsattribute zu konfigurieren, z. B.--properties="trino:join-distribution-type=AUTOMATIC". - JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit dem
trino-jvm:Präfix, um JVM-Attribute für Trino Koordinator- und Worker-Java-Prozesse zu konfigurieren, z. B.--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError". - Neue Kataloge erstellen und Katalogattribute hinzufügen Mit
trino-catalog:catalog-name.property-namekönnen Sie Trino-Kataloge konfigurieren.Beispiel: Das folgende Attribut-Flag kann mit dem Befehl `gcloud dataproc clusters create` verwendet werden, um einen Trino-Cluster mit einem „prodhive“-Hive-Katalog zu erstellen. Unter
/usr/lib/trino/etc/catalog/wird eine Dateiprodhive.propertieserstellt, um den Produktkatalog zu aktivieren.--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
Die Trino-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create Anfrage angegeben werden.