Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Dataproc Metastore 概览

Dataproc Metastore 是在 Google Cloud上运行的全代管式 Apache Hive metastore (HMS)。在开源大数据生态系统中，HMS 是一种用于管理关系型数据库中的技术元数据（例如架构、分区和列统计信息）的既定标准。

Dataproc Metastore 具有高可用性、自动修复和无服务器功能。使用它来管理数据湖元数据，并在您使用的各种数据处理引擎和工具之间提供互操作性。

Dataproc Metastore 的工作原理

您可以将 Dataproc Metastore 服务连接到 Managed Service for Apache Spark 集群，从而使用该服务。Managed Service for Apache Spark 集群包含依赖于 HMS 来驱动查询规划和执行的组件。

通过此集成，您可以在作业之间保留表信息，或使元数据可供其他集群和其他处理引擎使用。

例如，实现元数据存储区可能有助于您指定部分文件包含收入数据，而无需手动跟踪文件名。在这种情况下，您可以为这些文件定义一个表，并将元数据存储在 Dataproc Metastore 中。之后，您可以将其连接到 Managed Service for Apache Spark 集群，并使用 Hive、Spark SQL 或其他查询服务查询表中的信息。

Dataproc Metastore 版本

创建 Dataproc Metastore 服务时，您可以选择使用 Dataproc Metastore 2 服务或 Dataproc Metastore 1 服务。

Dataproc Metastore 2 是新一代服务，除了 Dataproc Metastore 1 的功能外，还提供横向可伸缩性功能。如需了解详情，请参阅功能和优势。
Dataproc Metastore 2 的定价方案与 Dataproc Metastore 不同。如需了解详情，请参阅价格方案和伸缩配置。

常见使用场景

除非另有说明，否则 Dataproc Metastore 2 和 Dataproc Metastore 1 均支持本部分中列出的所有使用场景。

为数据赋予意义。创建集中式元数据代码库，以便在多个临时 Managed Service for Apache Spark 集群之间共享。使用不同的开源软件 (OSS) 引擎，例如 Apache Hive、Apache Spark 和 Presto。
构建统一的数据视图。在Google Cloud上提供Google Cloud 服务（例如 Managed Service for Apache Spark、Knowledge Catalog 和 BigQuery）之间的互操作性，或使用其他基于开源的合作伙伴产品。

特性和优势

除非另有说明，否则本部分列出的所有功能均受 Dataproc Metastore 2 和 Dataproc Metastore 1 支持。

OSS 兼容性。连接到您现有的数据处理引擎，例如 Apache Hive、Apache Spark 和 Presto。
管理。借助经过全面配置的监控和操作任务，您可以在几分钟内创建或更新元数据存储区。
集成。与其他 Google Cloud 产品集成，例如将 BigQuery 用作 Managed Service for Apache Spark 集群的元数据来源。
内置安全性。使用已建立的 Google Cloud 安全协议，例如 Identity and Access Management (IAM) 和 Kerberos 身份验证。
简单导入。将存储在外部 Hive Metastore 中的现有元数据导入 Dataproc Metastore 服务。
自动备份。配置自动 Metastore 备份，以帮助避免数据丢失。
性能监控。设置性能层级，以动态响应高强度工作负载和峰值，而无需预热或缓存。
高可用性 (HA)。
- Dataproc Metastore 2. 提供可用区级高可用性 (HA)，无需进行任何特定配置或持续管理。这是通过在所选区域的多个可用区中自动复制后端数据库和 HMS 服务器来实现的。除了可用区级 HA 之外，Dataproc Metastore 2 还支持区域级 HA 和灾难恢复 (DR)。
- Dataproc Metastore 1. 默认情况下，提供可用区级高可用性 (HA)，无需任何特定配置或持续管理。这是通过在您选择的区域中的多个可用区自动复制后端数据库和 HMS 服务器来实现的。
如需详细了解特定于区域的注意事项，请参阅地理位置和区域。
可伸缩性。
- Dataproc Metastore 2. 使用横向扩缩比例来确定服务在给定时间需要使用的资源数量。您可以手动控制缩放比例，也可以根据需要将其设置为自动缩放。
- Dataproc Metastore 1. 设置服务时，您可以选择开发者层级或企业层级。此层级决定了服务在给定时间需要使用的资源数量。
支持。享受标准 Google Cloud SLA 和支持渠道。

与 Google Cloud集成

除非另有说明，否则 Dataproc Metastore 1 和 Dataproc Metastore 2 均支持本部分中列出的所有集成。

Managed Service for Apache Spark。连接到 Managed Service for Apache Spark 集群，以便为 OSS 大数据工作负载提供元数据。
BigQuery。在 Managed Service for Apache Spark 工作负载中查询 BigQuery 数据集。
Knowledge Catalog。查询在 Knowledge Catalog 数据湖中发现的结构化数据和半结构化数据。
Data Catalog。将 Dataproc Metastore 与 Data Catalog 同步，以启用元数据搜索和发现功能。
日志记录和监控。将 Dataproc Metastore 与 Cloud Monitoring 和 Cloud Logging 产品集成。
身份验证和 IAM。依赖其他Google Cloud 产品使用的标准 OAuth 身份验证，该身份验证支持使用精细的 Identity and Access Management 角色来对个别资源进行访问权限控制。

后续步骤

首先，请参阅快速入门指南部署 Dataproc Metastore 服务。
了解 Dataproc Metastore 价格。
了解 Dataproc Metastore 的配额和限制。
阅读 Dataproc Metastore 版本说明。
使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc Metastore API 访问 Dataproc Metastore。

Dataproc Metastore 概览 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。