Sie können zusätzliche Komponenten wie Presto installieren, wenn Sie einen Managed Service for Apache Spark Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird beschrieben, wie Sie die Presto-Komponente optional in einem Managed Service for Apache Spark-Cluster installieren können.
Presto (Trino) ist eine verteilte Open
Source-SQL-Abfrage-Engine. Der Presto-Server und die Webbenutzeroberfläche sind standardmäßig an Port 8060 (oder Port 7778, wenn Kerberos aktiviert ist) auf dem ersten Masterknoten des Clusters verfügbar.
Standardmäßig ist Presto in Managed Service for Apache Spark für die Kataloge Hive, BigQuery,
Memory, TPCH und TPCDS konfiguriert.
Nachdem Sie einen Cluster mit der Presto-Komponente erstellt haben, können Sie Abfragen ausführen:
- aus einem lokalen Terminal mit dem
gcloud dataproc jobs submit prestoBefehl - aus einem Terminalfenster auf dem ersten Masterknoten des Clusters über die
prestoBefehlszeile: siehe Trino mit Managed Service for Apache Spark verwenden
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Managed Service for Apache Spark-Cluster erstellen. Sie können Komponenten in Cluster einfügen, die mit Managed Service for Apache Spark Version 1.3 oder höher erstellt wurden.
Informationen zu den Komponentenversionen, die im jeweiligen Managed Service for Apache Spark-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Managed Service for Apache Spark-Versionen.
Google Cloud CLI-Befehl
Verwenden Sie zum Erstellen eines Managed Service for Apache Spark-Clusters, der die Presto-Komponente enthält,
verwenden Sie den
gcloud dataproc clusters create cluster-name
Befehl mit dem --optional-components Flag.
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
Attribute konfigurieren
Fügen Sie dem Befehl gcloud dataproc clusters create das Flag --properties hinzu, um die Konfigurationsattribute presto, presto-jvm and presto-catalog festzulegen.
-
Anwendungsattribute: Verwenden Sie Clusterattribute mit dem Präfix
presto:, um Presto-Anwendungsattribute zu konfigurieren, z. B.--properties="presto:join-distribution-type=AUTOMATIC". - JVM-Konfigurationsattribute: Verwenden Sie Clusterattribute mit dem Präfix
presto-jvm:, um JVM-Attribute für Presto-Koordinator- und Worker-Java-Prozesse zu konfigurieren, z. B.--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError". - Neue Kataloge erstellen und Katalogattribute hinzufügen: Mit
presto-catalog:catalog-name.property-namekönnen Sie Presto-Kataloge konfigurieren.Beispiel: Das folgende Attribut-Flag kann mit dem Befehl "gcloud dataproc clusters create" verwendet werden, um einen Presto-Cluster mit einem "prodhive"-Hive-Katalog zu erstellen. Unter
/usr/lib/presto/etc/catalog/wird eineprodhive.properties-Datei erstellt, um den Produktkatalog zu aktivieren.--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
Die Presto-Komponente kann über die Managed Service for Apache Spark API mit SoftwareConfig.Component als Teil einer clusters.create -Anfrage angegeben werden.
Console
- Aktivieren Sie die Komponente und das Komponentengateway.
- Öffnen Sie in der Google Cloud console die Seite Managed Service for Apache Spark Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Im Bereich „Komponenten“:
- Wählen Sie unter „Optionale Komponenten“ Presto und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.
- Wählen Sie unter Component Gateway „Component Gateway aktivieren“ aus (siehe Component Gateway-URLs ansehen und aufrufen).