Dataproc Metastore 是在 Google Cloud上运行的全代管式 Apache Hive metastore (HMS)。 (HMS) 是开源大数据生态系统中用于管理技术元数据(例如关系型数据库中的架构、分区和列统计信息)的既定标准。
Dataproc Metastore 具有高可用性、自动修复和无服务器功能。 您可以使用它来管理 数据湖 元数据,并在您使用的各种数据处理引擎 和工具之间提供互操作性。
Dataproc Metastore 的工作原理
您可以通过将 Dataproc Metastore 服务连接到 Managed Service for Apache Spark 集群来使用该服务。Managed Service for Apache Spark 集群包含依赖于 HMS 来驱动查询规划和执行的组件。
通过这种集成,您可以在作业之间保留表信息,或使元数据可供其他集群和其他处理引擎使用。
例如,实现 metastore 可能有助于您指定文件的子集包含收入数据,而不是手动跟踪文件名。 在这种情况下,您可以为这些文件定义一个表,并将元数据存储在 Dataproc Metastore 中。之后,您可以将其连接到 Managed Service for Apache Spark 集群,并使用 Hive、Spark SQL 或其他查询服务查询表中的信息。
Dataproc Metastore 版本
创建 Dataproc Metastore 服务时,您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。
Dataproc Metastore 2 是新一代服务,除了 Dataproc Metastore 1 的功能外,还提供横向可伸缩性功能。 如需了解详情,请参阅特性和优势。
Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情,请参阅价格方案和伸缩配置。
常见使用场景
除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 支持本部分列出的所有使用场景。
为数据赋予含义。创建一个集中式元数据代码库,该代码库在许多临时 Managed Service for Apache Spark 集群之间共享。使用 不同的开源软件 (OSS) 引擎,例如 Apache Hive 、Apache Spark 和 Presto。
构建数据的统一视图。在 Google Cloud Managed Service for Apache Spark、Knowledge Catalog、 和 BigQuery 等服务之间提供互操作性,或使用 Google Cloud上其他基于开源的合作伙伴产品。
特性和优势
除非另有说明,否则 Dataproc Metastore 2 和 Dataproc Metastore 1 支持本部分列出的所有特性。
OSS 兼容性 。连接到您现有的数据处理引擎,例如 Apache Hive、Apache Spark 和 Presto。
管理 。在几分钟内创建或更新 metastore,并完成完全配置的监控和操作任务。
集成 。与其他 Google Cloud 产品集成,例如 将 BigQuery 用作 Managed Service for Apache Spark 集群的元数据来源。
内置安全性 。使用既定的 Google Cloud 安全协议, 例如 Identity and Access Management (IAM) 和 Kerberos 身份验证。
简单导入 。将存储在外部 Hive Metastore metastore 中的现有元数据导入 Dataproc Metastore 服务。
自动备份 。配置自动 metastore 备份,以帮助避免数据丢失。
性能监控 。设置性能层级,以动态响应高强度工作负载和峰值,而无需预热或缓存。
高可用性 (HA) 。
- Dataproc Metastore 2 。提供可用区级高可用性 (HA),而无需任何特定配置或持续管理。这是通过在您选择的区域中的多个可用区自动复制后端数据库和 HMS 服务器来实现的。除了可用区级 HA 之外,Dataproc Metastore 2 还支持区域级 HA 和灾难恢复 (DR)。
- Dataproc Metastore 1 。默认情况下,提供可用区级高可用性 (HA),而无需任何特定配置或持续管理。这是通过在您选择的区域中的多个可用区自动复制后端数据库和 HMS 服务器来实现的。
如需详细了解特定于区域的注意事项,请参阅 地理位置和区域。
可伸缩性 。
- Dataproc Metastore 2 。使用横向扩缩系数来确定您的服务在给定时间需要使用的资源数量。您可以手动控制缩放比例,也可以将其设置为在需要时自动扩缩。
- Dataproc Metastore 1 。设置服务时,请在开发者层级或企业层级之间进行选择。此层级决定了您的服务在给定时间需要使用的资源数量。
支持 。受益于标准服务等级协议 (SLA) 和支持渠道。 Google Cloud
与以下产品集成 Google Cloud
除非另有说明,否则 Dataproc Metastore 1 和 Dataproc Metastore 2 支持本部分列出的所有集成。
- Managed Service for Apache Spark 。连接到 Managed Service for Apache Spark 集群,以便为 OSS 大数据工作负载提供元数据。
- BigQuery 。在 Managed Service for Apache Spark 工作负载中查询 BigQuery 数据集。
- Knowledge Catalog 。查询在 Knowledge Catalog 湖中发现的结构化数据和半结构化数据。
- Data Catalog 。将 Dataproc Metastore 与 Data Catalog 同步,以启用元数据搜索和发现。
- 日志记录和监控 。将 Dataproc Metastore 与 Cloud Monitoring 和 Logging 产品集成。
- 身份验证和 IAM 。依赖于其他 Google Cloud 产品使用的标准 OAuth 身份验证,该身份验证支持使用精细的 Identity and Access Management 角色来 为个别资源启用访问权限控制。
后续步骤
- 按照快速入门指南部署 Dataproc Metastore 服务开始使用。
- 了解 Dataproc Metastore 价格。
- 了解 Dataproc Metastore 的配额和限制。
- 阅读 Dataproc Metastore 版本说明。
- 使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc Metastore API 访问 Dataproc Metastore。