使用可选组件功能创建 Managed Service for Apache Spark 集群时,您可以安装 Presto 等其他组件。本页面介绍了如何在 Managed Service for Apache Spark 集群上选择安装 Presto 组件。
Presto (Trino) 是一个开源分布式 SQL 查询引擎。默认情况下,集群的第一个主节点上的端口8060(如果已启用 Kerberos,则为端口7778)上会提供 Presto 服务器和网页界面。
默认情况下,Managed Service for Apache Spark 上的 Presto 配置为使用 Hive、BigQuery、Memory、TPCH 和 TPCDS 连接器。
使用 Presto 组件创建集群后,您可以运行查询:
- 从本地终端使用
gcloud dataproc jobs submit presto命令 - 从集群的第一个主节点上的终端窗口中使用
prestoCLI(命令行界面),请参阅将 Trino 与 Managed Service for Apache Spark 搭配使用
安装组件
您可以在创建 Managed Service for Apache Spark 集群时安装该组件。对于使用 Managed Service for Apache Spark 版本 1.3 及更高版本创建的集群,可以添加组件。
如需查看每个 Managed Service for Apache Spark 映像版本中包含的组件版本,请参阅支持的 Managed Service for Apache Spark 版本。
Google Cloud CLI 命令
如需创建包含 Presto 组件的 Managed Service for Apache Spark 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。
gcloud dataproc clusters create cluster-name \ --optional-components=PRESTO \ --region=region \ --enable-component-gateway \ ... other flags
配置属性
将 --properties 标志添加到 gcloud dataproc clusters create 命令以设置 Presto、presto-jvm 和 Presto - 目录记录配置属性。
- 应用属性:使用具有
presto:前缀的集群属性来配置 Presto 应用属性,例如--properties="presto:join-distribution-type=AUTOMATIC"。 - JVM 配置属性:使用具有
presto-jvm:前缀的集群属性为 Presto 协调器和工作器 Java 进程(例如,--properties="presto-jvm:XX:+HeapDumpOnOutOfMemoryError")配置值和时间。 - 创建新目录并添加目录属性:使用
presto-catalog:catalog-name.property-name配置 Presto 目录。示例:以下“properties”标志可与“gcloud dataproc clusters create”命令结合使用,以创建具有“prodhive”Hive 目录的 Presto 集群。系统将在
/usr/lib/presto/etc/catalog/下创建一个prodhive.properties文件,以启用正式目录。--properties="presto-catalog:prodhive.connector.name=hive-hadoop2,presto-catalog:prodhive.hive.metastore.uri=thrift://localhost:9083
REST API
可以通过 Managed Service for Apache Spark API 使用 SoftwareConfig.Component 将 Presto 组件指定为 clusters.create 请求的一部分。
控制台
- 启用组件和组件网关。
- 在 Google Cloud 控制台中,打开 Managed Service for Apache Spark 创建集群页面。选中“设置集群”面板。
- 在组件部分中执行以下操作:
- 在可选组件下,选择 Presto 和其他可选组件安装在集群上。
- 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。