Dataproc 選用 Presto 元件

當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Presto 等其他元件。本頁說明如何在 Dataproc 叢集上選擇性地安裝 Presto 元件。

Presto (Trino) 是開放原始碼分散式 SQL 查詢引擎。Presto 伺服器和 Web UI 位於叢集的第一個主要節點的 8060 通訊埠上 (若 Kerberos 已啟用,則為通訊埠 7778)。

根據預設,Dataproc 上的 Presto 會設定為與 HiveBigQueryMemoryTPCHTPCDS 連接器搭配使用。

使用 Presto 元件建立叢集後,即可執行查詢:

安裝元件

請在建立 Dataproc 叢集時安裝元件。若要新增元件,則需使用以 Dataproc 1.3 以上版本所建立的叢集。

請參閱「支援的 Dataproc 版本」,瞭解每個 Dataproc 映像檔版本中包含的元件版本。

gcloud 指令

如要建立包含 Presto 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create cluster-name 指令並加上 --optional-components 旗標。

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

設定屬性

gcloud dataproc clusters create 指令中新增 --properties 旗標,即可設定 presto、presto-jvm 和 presto-catalog config 屬性。

  • 應用程式屬性:使用帶有 presto: 前置字元的叢集屬性,設定 Presto 應用程式屬性,例如 --properties="presto:join-distribution-type=AUTOMATIC"
  • JVM 設定屬性:使用具有 presto-jvm: 前置字元的叢集屬性,為 Presto 協調器和 worker Java 程序設定 JVM 屬性,例如 --properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError"
  • 建立新目錄並新增目錄資源:使用 presto-catalog:catalog-name.property-name 設定 Presto 目錄。

    範例:下列「properties」旗標可與「gcloud dataproc clusters create」指令搭配使用,建立具有「prodhive」Hive 目錄的 Presto 叢集。系統會在 /usr/lib/presto/etc/catalog/ 下建立 prodhive.properties 檔案,以啟用 prodhive 目錄。

    --properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Presto 元件。

控制台

    1. 啟用元件和元件閘道。
      • 在 Google Cloud 控制台,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。系統已選取「Set up cluster」(設定叢集) 面板。
      • 在「Components」(元件) 部分執行下列操作:
        • 在「Optional components」(選用元件) 下方,選取叢集所要安裝的 Presto 及其他選用元件。
        • 在「Component Gateway」(元件閘道) 下方,選取「Enable component gateway」(啟用元件閘道) (請參閱「查看及存取元件閘道網址」)。