Dataproc Metastore 總覽

Dataproc Metastore 是全代管的 Apache Hive Metastore (HMS),可在 Google Cloud上執行。在開放原始碼大數據生態系統中,HMS 是管理技術中繼資料的既定標準,例如關聯式資料庫中的結構定義、分割區和資料欄統計資料。

Dataproc Metastore 具備高可用性、自動修復功能,且為無伺服器。您可以使用 Iceberg 管理資料湖泊中繼資料,並在使用的各種資料處理引擎和工具之間提供互通性。

Dataproc Metastore 的運作方式

您可以將 Dataproc Metastore 服務連線至 Managed Service for Apache Spark 叢集,Managed Service for Apache Spark 叢集包含依附於 HMS 的元件,可驅動查詢規劃和執行作業。

這項整合功能可讓您在作業之間保留表格資訊,或讓其他叢集和其他處理引擎使用中繼資料。

舉例來說,實作中繼資料存放區可協助您指定檔案子集包含收益資料,而不必手動追蹤檔案名稱。在這種情況下,您可以為這些檔案定義資料表,並將中繼資料儲存在 Dataproc Metastore 中。之後,您可以將其連線至 Managed Service for Apache Spark 叢集,並使用 Hive、Spark SQL 或其他查詢服務查詢資料表中的資訊。

Dataproc Metastore 版本

建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務Dataproc Metastore 1 服務

  • Dataproc Metastore 2 是新一代服務,除了 Dataproc Metastore 1 的功能外,還提供水平擴充功能。詳情請參閱「功能和優點」。

  • Dataproc Metastore 2 的定價方案與 Dataproc Metastore 不同。詳情請參閱定價方案和資源調度設定

常見用途

除非另有說明,否則 Dataproc Metastore 2 和 Dataproc Metastore 1 皆支援本節列出的所有用途。

  • 為資料賦予意義。建立集中式中繼資料存放區,並由許多暫時性 Managed Service for Apache Spark 叢集共用。使用不同的開放原始碼軟體 (OSS) 引擎,例如 Apache HiveApache SparkPresto

  • 建立整合式資料檢視畫面。在 Managed Service for Apache Spark、Knowledge Catalog 和 BigQuery 等Google Cloud 服務之間提供互通性,或在Google Cloud上使用其他以開放原始碼為基礎的合作夥伴產品。

特色與優點

除非另有說明,否則本節列出的所有功能都支援 Dataproc Metastore 2 和 Dataproc Metastore 1。

  • OSS 相容性。連結至現有的資料處理引擎,例如 Apache Hive、Apache Spark 和 Presto。

  • 管理。在幾分鐘內建立或更新中繼存放區,並完成監控和作業工作的所有設定。

  • 整合。與其他 Google Cloud 產品整合,例如將 BigQuery 做為 Managed Service for Apache Spark 叢集的中繼資料來源。

  • 內建安全防護機制。使用既有的 Google Cloud 安全防護通訊協定,例如身分與存取權管理 (IAM)Kerberos 驗證

  • 輕鬆匯入:將儲存在外部 Hive Metastore 中的現有中繼資料匯入 Dataproc Metastore 服務。

  • 自動備份:設定自動備份中繼存放區,避免資料遺失。

  • 效能監控設定效能層級,動態回應高密集工作負載和尖峰流量,無需預先暖機或快取。

  • 高可用性 (HA)

    • Dataproc Metastore 2。提供可用區高可用性 (HA),無需任何特定設定或持續管理。方法是在您選擇的區域中,自動將後端資料庫和 HMS 伺服器複製到多個可用區。除了區域高可用性外,Dataproc Metastore 2 也支援區域高可用性和災難復原 (DR)。
    • Dataproc Metastore 1. 根據預設,系統會提供區域高可用性 (HA),無須任何特定設定或持續管理。方法是在您選擇的區域中,自動將後端資料庫和 HMS 伺服器複製到多個可用區。

    如要進一步瞭解特定區域的注意事項,請參閱「地理位置與區域」一文。

  • 擴充性

    • Dataproc Metastore 2。使用水平調度係數,判斷服務在特定時間需要使用的資源數量。您可以手動控制縮放比例係數,或視需要設為自動縮放。
    • Dataproc Metastore 1. 設定服務時,請選擇開發人員層級或企業層級。這個層級決定服務在特定時間需要使用的資源數量。
  • 支援。享有標準 Google Cloud 服務水準協議和支援管道。

與 Google Cloud

除非另有註明,否則本節列出的所有整合功能都支援 Dataproc Metastore 1 和 Dataproc Metastore 2。

  • Managed Service for Apache Spark。連線至 Managed Service for Apache Spark 叢集,以便為 OSS 大數據工作負載提供中繼資料。
  • BigQuery。在 Managed Service for Apache Spark 工作負載中查詢 BigQuery 資料集。
  • Knowledge Catalog。查詢在 Knowledge Catalog 湖泊中探索到的結構化和半結構化資料。
  • Data Catalog。將 Dataproc Metastore 與 Data Catalog 同步處理,即可搜尋及探索中繼資料。
  • 記錄與監控。將 Dataproc Metastore 與 Cloud Monitoring 和 Logging 產品整合。
  • 驗證和 IAM。採用其他Google Cloud 產品使用的標準 OAuth 驗證機制,支援使用精細的 Identity and Access Management 角色,為個別資源啟用存取控管。

後續步驟