借助以下概念,您可以了解 Dataproc Metastore 的运作方式以及可用于服务的不同功能。
Dataproc Metastore 版本
创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。
Dataproc Metastore 2
Dataproc Metastore 2 使用缩放比例来确定服务在给定时间使用的资源量。创建 Dataproc Metastore 2 后,您可以通过修改缩放比例来向上或向下扩缩服务。
Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 功能之外,还提供横向可伸缩性功能。如需了解详情,请参阅功能和优势。
Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅价格方案和伸缩配置。
Dataproc Metastore 1
Dataproc Metastore 1 使用服务层级来确定服务在给定时间使用的资源数量。服务层级可提供可预测的预定资源量。
检查 Dataproc Metastore 版本
您可以在Google Cloud 控制台中查看您使用的 Dataproc Metastore 版本。
- Dataproc Metastore 2:配置表包含以下值:Edition Enterprise - Single Region。
- Dataproc Metastore 1:配置表包含以下值之一:Tier: DEVELOPER 或 Tier: ENTERPRISE。
常见 Dataproc Metastore 术语
以下术语在整个 Dataproc Metastore 生态系统和文档中都很常用。
服务
- Apache Hive。Hive 是一种基于 Apache Hadoop 的主流开源数据仓库系统。Hive 提供了一种类似于 SQL 的查询语言,名为 HiveQL,用于分析大型结构化数据集。
- Apache Hive metastore。Hive Metastore 保存有关 Hive 表的元数据,例如其架构和位置。
- Managed Service for Apache Spark。Managed Service for Apache Spark 是 Google Cloud 上的一项快速、易用的全托管式服务,让您能够以简单、经济实惠的方式运行 Apache Spark 和 Apache Hadoop 工作负载。创建 Dataproc Metastore 后,您可以从 Managed Service for Apache Spark 集群连接到该 Dataproc Metastore。
- Managed Service for Apache Spark 集群。创建 Dataproc Metastore 服务后,您可以从 Managed Service for Apache Spark 集群连接到该服务。您还可以将 Dataproc Metastore 与各种其他集群搭配使用,例如自行管理的 Apache Hive、Apache Spark 或 Presto 集群。
- Dataproc Metastore 服务。您在 Google Cloud中创建的元存储区实例的名称。您的实现中可以有一个或多个不同的元数据存储区服务。
- Private Service Connect。Private Service Connect 可让您跨 VPC 网络与 Dataproc Metastore 元数据建立专用连接。您可以将其用于联网,作为 VPC 对等互连的替代方案。
- VPC Service Controls。VPC Service Controls 可帮助您降低 Google Cloud 服务中的数据渗漏风险,您可以通过创建边界来保护明确指定的服务的资源和数据。
概念
- 表格。所有 Hive 应用都拥有代管式内部表或非代管式外部表,用于存储您的数据。
- Hive 仓库目录。用于存储受管理表数据的默认位置。
- 工件存储桶。在您的项目中自动创建的 Cloud Storage 存储桶,与您创建的每个 Metastore 服务相关联。此存储桶可用于存储服务工件,例如导出的元数据和受管理表数据。默认情况下,工件存储桶会存储 Dataproc Metastore 服务的默认仓库目录。
- 端点。Dataproc Metastore 服务通过一个或多个网络端点为客户端提供对存储的 Hive Metastore 元数据的访问权限。Dataproc Metastore 会为这些端点提供 URI。
- 端点协议。用于在 Dataproc Metastore 和 Hive Metastore 客户端之间进行通信的线上传输网络协议。Dataproc Metastore 支持 Apache Thrift 和 gRPC 端点。
- 元数据联合。一项功能,可让您访问存储在多个 Dataproc Metastore 实例中的元数据。
- 辅助版本。一项功能,可让您将多个 Hive 客户端版本连接到同一 Dataproc Metastore 服务。
Hive Metastore 概念
使用 Dataproc Metastore 服务需要您了解基本的 Hive Metastore 概念。如需了解详情,请参阅 Hive Metastore。
网络要求
Dataproc Metastore 服务需要网络访问权限才能正常运行。如需了解详情,请参阅配置网络要求。
项目配置
部署 Managed Service for Apache Spark 集群和 Dataproc Metastore 服务时,您可以采用多种可能的项目配置。如需了解详情,请参阅跨项目部署。