使用可选组件功能创建 Dataproc 集群时,可以安装 Trino 等其他组件。本页面介绍了如何选择性地在 Dataproc 集群上安装 Trino 组件。
Trino 是一个开源分布式 SQL 查询引擎。默认情况下,您可以通过集群的第一个主节点上的端口 8060(如果已启用 Kerberos,则为端口 7778)访问 Trino 服务器和网页界面。
默认情况下,Dataproc 上的 Trino 配置为使用 Hive、BigQuery、Memory、TPCH 和 TPCDS 连接器。
创建包含 Trino 组件的集群后,您可以运行查询:
- 从本地终端使用
gcloud dataproc jobs submit trino命令 - 从集群的第一个主节点上的终端窗口中使用
trinoCLI(命令行界面),请参阅将 Trino 与 Dataproc 搭配使用。
安装组件
在创建 Dataproc 集群时安装组件。
如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本。
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 创建集群页面。
设置集群面板已处于选中状态。
- 在“组件”部分中执行以下操作:
- 在可选组件中,选择 Trino 以及其他一些要在集群上安装的可选组件。
- 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。
gcloud CLI
如需创建包含 Trino 组件的 Dataproc 集群,请将 gcloud dataproc clusters create 命令与 --optional-components 标志结合使用。
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME:集群的名称。
- REGION:集群所在的 Compute Engine 区域。
配置属性
将 --properties 标志添加到 gcloud dataproc clusters create 命令以设置 trino、trino-jvm 和 trino-catalog 配置属性。
-
应用属性:使用具有
trino:前缀的集群属性来配置 Trino 应用属性,例如--properties="trino:join-distribution-type=AUTOMATIC"。 - JVM 配置属性:使用具有
trino-jvm:前缀的集群属性为 Trino 协调器和工作器 Java 进程配置 JVM 属性(例如,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError")。 - 创建新目录并添加目录属性:使用
trino-catalog:catalog-name.property-name配置 Trino 目录。示例:以下“properties”标志可与“gcloud dataproc clusters create”命令结合使用,以创建具有“prodhive”Hive 目录的 Trino 集群。系统将在
/usr/lib/trino/etc/catalog/下创建一个prodhive.properties文件,以启用正式目录。--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
可通过 Dataproc API 在 clusters.create 请求中使用 SoftwareConfig.Component 来指定 Trino 组件。