當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Presto 等其他元件。本頁說明如何在 Dataproc 叢集上選擇性地安裝 Presto 元件。
Presto (Trino) 是開放原始碼分散式 SQL 查詢引擎。Presto 伺服器和 Web UI 位於叢集的第一個主要節點的 8060 通訊埠上 (若 Kerberos 已啟用,則為通訊埠 7778)。
根據預設,Dataproc 上的 Presto 會設定為與 Hive、BigQuery、Memory、TPCH 和 TPCDS 連接器搭配使用。
使用 Presto 元件建立叢集後,即可執行查詢:
- 使用本機終端機的
gcloud dataproc jobs submit presto指令 - 使用
prestoCLI (指令列介面),從叢集第一個主要節點的終端機視窗執行,請參閱「使用 Trino 搭配 Dataproc」
安裝元件
請在建立 Dataproc 叢集時安裝元件。若要新增元件,則需使用以 Dataproc 1.3 以上版本所建立的叢集。
請參閱「支援的 Dataproc 版本」,瞭解每個 Dataproc 映像檔版本中包含的元件版本。
gcloud 指令
如要建立包含 Presto 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create cluster-name 指令並加上 --optional-components 旗標。
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
設定屬性
在 gcloud dataproc clusters create 指令中新增 --properties 旗標,即可設定 presto、presto-jvm 和 presto-catalog config 屬性。
-
應用程式屬性:使用帶有
presto:前置字元的叢集屬性,設定 Presto 應用程式屬性,例如--properties="presto:join-distribution-type=AUTOMATIC"。 - JVM 設定屬性:使用具有
presto-jvm:前置字元的叢集屬性,為 Presto 協調器和 worker Java 程序設定 JVM 屬性,例如--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"。 - 建立新目錄並新增目錄資源:使用
presto-catalog:catalog-name.property-name設定 Presto 目錄。範例:下列「properties」旗標可與「gcloud dataproc clusters create」指令搭配使用,建立具有「prodhive」Hive 目錄的 Presto 叢集。系統會在
/usr/lib/presto/etc/catalog/下建立prodhive.properties檔案,以啟用 prodhive 目錄。--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Presto 元件。
控制台
- 啟用元件和元件閘道。
- 在 Google Cloud 控制台,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。系統已選取「Set up cluster」(設定叢集) 面板。
- 在「Components」(元件) 部分執行下列操作:
- 在「Optional components」(選用元件) 下方,選取叢集所要安裝的 Presto 及其他選用元件。
- 在「Component Gateway」(元件閘道) 下方,選取「Enable component gateway」(啟用元件閘道) (請參閱「查看及存取元件閘道網址」)。