Dataproc Metastore 核心概念

請參考下列概念,瞭解 Dataproc Metastore 的運作方式,以及可搭配服務使用的各種功能。

Dataproc Metastore 版本

建立 Dataproc Metastore 服務時,您可以選擇使用 Dataproc Metastore 2 服務Dataproc Metastore 1 服務

Dataproc Metastore 2

Dataproc Metastore 2 會使用縮放比例係數,判斷服務在特定時間使用的資源數量。建立 Dataproc Metastore 2 後,您可以修改縮放比例係數,向上或向下調整服務。

  • Dataproc Metastore 2 是新一代服務,除了 Dataproc Metastore 功能外,還提供水平擴充功能。詳情請參閱「功能和優點」。

  • Dataproc Metastore 2 的定價方案與 Dataproc Metastore 不同。詳情請參閱定價方案和資源調度設定

Dataproc Metastore 1

Dataproc Metastore 1 會根據服務層級,判斷服務在特定時間使用的資源數量。服務層級會提供預先決定的資源量,

檢查 Dataproc Metastore 版本

您可以在Google Cloud 控制台中查看目前使用的 Dataproc Metastore 版本。

  • Dataproc Metastore 2:設定表包含下列值:Edition Enterprise - Single Region
  • Dataproc Metastore 1:設定表包含下列其中一個值:層級:DEVELOPER層級:ENTERPRISE

常見的 Dataproc Metastore 術語

下列術語普遍用於 Dataproc Metastore 生態系統和說明文件。

服務

  • Apache Hive。Hive 是採用 Apache Hadoop 建構而成的熱門開放原始碼資料倉儲系統,Hive 提供類似 SQL 的查詢語言,稱為 HiveQL,可用於分析大型結構化資料集。
  • Apache Hive Metastore。Hive 中繼存放區會保存 Hive 資料表相關的中繼資料,例如資料表的結構定義和位置。
  • Managed Service for Apache Spark。Apache Spark 代管服務是一項運作快速且簡單易用的 Google Cloud 全代管服務,可讓您以簡單並符合成本效益的方式執行 Apache Spark 和 Apache Hadoop 工作負載。建立 Dataproc Metastore 後,即可從 Managed Service for Apache Spark 叢集連線至該服務。
  • Managed Service for Apache Spark 叢集。建立 Dataproc Metastore 服務後,即可從 Managed Service for Apache Spark 叢集連線至該服務。您也可以將 Dataproc Metastore 與各種其他叢集搭配使用,例如自行管理的 Apache Hive、Apache Spark 或 Presto 叢集。
  • Dataproc Metastore 服務。您在 Google Cloud中建立的 Metastore 執行個體名稱。實作中可以有一或多個不同的 Metastore 服務。
  • Private Service Connect。透過 Private Service Connect,您可以在虛擬私有雲網路之間,設定與 Dataproc Metastore 中繼資料的私人連線。您可以將其用於網路,做為虛擬私有雲對等互連的替代方案。
  • VPC Service Controls。VPC Service Controls 可讓您建立 perimeter,保護明確指定的服務資源和資料,進而更有效地降低 Google Cloud 服務資料遭竊取的風險。

概念

  • 資料表。所有 Hive 應用程式都有代管內部或非代管外部資料表,用於儲存資料。
  • Hive 倉儲目錄。儲存受管理資料表資料的預設位置。
  • 構件 bucket。在專案中建立的 Cloud Storage bucket,會自動與您建立的每個中繼存放區服務建立關聯。這個值區可用於儲存服務構件,例如匯出的中繼資料和代管表格資料。根據預設,構件值區會儲存 Dataproc Metastore 服務的預設倉儲目錄。
  • 端點。Dataproc Metastore 服務會透過一或多個網路端點,讓用戶端存取儲存的 Hive Metastore 中繼資料。Dataproc Metastore 會提供這些端點的 URI。
  • 端點通訊協定。用於 Dataproc Metastore 與 Hive Metastore 用戶端之間通訊的網路通訊協定。Dataproc Metastore 支援 Apache Thrift 和 gRPC 端點。
  • 中繼資料聯盟。這項功能可讓您存取儲存在多個 Dataproc Metastore 執行個體中的中繼資料。
  • 輔助版本。這項功能可讓多個 Hive 用戶端版本連線至同一個 Dataproc Metastore 服務。

Hive 中繼存放區概念

如要使用 Dataproc Metastore 服務,您必須瞭解基本的 Hive 中繼存放區概念。詳情請參閱「Hive Metastore」。

網路需求

Dataproc Metastore 服務需要網路存取權才能正常運作。詳情請參閱「設定網路需求」。

專案設定

部署 Managed Service for Apache Spark 叢集和 Dataproc Metastore 服務時,您可以使用多種可能的專案設定。詳情請參閱「跨專案部署」。

後續步驟