使用 可选组件 功能创建 Managed Service for Apache Spark 集群时,您可以安装 Trino 等其他组件。本页面介绍了如何选择性地在 Managed Service for Apache Spark 集群上安装 Trino 组件。
Trino 是一个开源
分布式 SQL 查询引擎。默认情况下,您可以通过集群的第一个主节点上的端口 8060(如果已启用 Kerberos,则为端口
7778)访问 Trino 服务器和网页界面。
默认情况下,Managed Service for Apache Spark 上的 Trino 配置为使用 Hive、BigQuery、
Memory、TPCH 和 TPCDS 连接器。
创建包含 Trino 组件的集群后,您可以运行查询:
- 从本地终端使用
gcloud dataproc jobs submit trino命令 - 从集群的第一个主节点上的终端窗口中使用
trinoCLI(命令行界面),请参阅 将 Trino 与 Managed Service for Apache Spark 搭配使用。
安装组件
创建 Managed Service for Apache Spark 集群时,请安装该组件。
如需查看每个 Managed Service for Apache Spark 映像版本中包含的组件版本,请参阅 支持的 Managed Service for Apache Spark 版本 。
控制台
- 在 Google Cloud 控制台中,前往 Managed Service for Apache Spark
创建集群 页面。
设置集群面板已处于选中状态。
- 在“组件”部分中执行以下操作:
- 在可选组件中,选择 Trino 以及其他一些要在集群上安装的可选组件。
- 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。
gcloud CLI
如需创建包含 Trino 组件的 Managed Service for Apache Spark 集群,
请将
gcloud dataproc clusters create
命令与 --optional-components 标志结合使用。
gcloud dataproc clusters create CLUSTER_NAME \
--optional-components=TRINO \
--region=region \
--enable-component-gateway \
... other flags
- CLUSTER_NAME:集群的名称。
- REGION:集群所在的 Compute Engine 区域。
配置属性
将 --properties 标志添加到 gcloud dataproc clusters create 命令以设置 trino、trino-jvm 和 trino-catalog 配置属性。
-
应用属性:使用具有
trino:前缀的集群属性来配置 Trino 应用属性,例如--properties="trino:join-distribution-type=AUTOMATIC"。 - JVM 配置属性:使用具有
trino-jvm:前缀的集群属性为 Trino 协调器和工作器 Java 进程配置 JVM 属性(例如,--properties="trino-jvm:XX:+HeapDumpOnOutOfMemoryError")。 - 创建新目录并添加目录属性:使用
trino-catalog:catalog-name.property-name配置 Trino 目录。示例:以下“properties”标志可与“gcloud dataproc clusters create”命令结合使用,以创建具有“prodhive”Hive 目录的 Trino 集群。系统将在
/usr/lib/trino/etc/catalog/下创建一个prodhive.properties文件,以启用正式目录。--properties="trino-catalog:prodhive.connector.name=hive,trino-catalog:prodhive.hive.metastore.uri=thrift://localhost:9000"
REST API
可通过 Managed Service for Apache Spark API 在 clusters.create 请求中使用 SoftwareConfig.Component 来指定 Trino 组件。