本文說明 Dataplex Universal Catalog 區域,以及如何將區域新增至 Dataplex Universal Catalog 湖泊。
總覽
Dataplex Universal Catalog 儲存區是 Dataplex Universal Catalog 湖泊中的具名實體。這些是無結構、半結構和結構化資料的邏輯分組,由多項資產組成,例如 Cloud Storage bucket、BigQuery 資料集和 BigQuery 資料表。
湖泊可包含一或多個區域。雖然區域只能屬於一個 Lake,但可能包含指向資源的資產,而這些資源屬於父項專案以外的專案。
您可以在 Dataplex Universal Catalog 中選取區域的設定。您可以選擇兩種區域:原始區域和精選區域。
原始區域
原始區域會儲存結構化資料、半結構化資料 (例如 CSV 檔案和 JSON 檔案),以及來自外部來源的任何格式非結構化資料。原始區域可用於暫存原始資料,再執行任何轉換。資料可儲存在 Cloud Storage bucket 或 BigQuery 資料集中。
原始區域支援讀取和寫入權限的 bucket 層級或資料集層級精細程度。原始區域可儲存的資料類型沒有限制。
收錄的區域
精選區域會儲存結構化資料。資料可儲存在 Cloud Storage 值區或 BigQuery 資料集中。
Cloud Storage 值區支援的格式包括 Parquet、Avro 和 ORC。 整理後資料儲存區適合用來暫存需要處理的資料,再用於分析,或提供已可分析的資料。
如果是 BigQuery 資料表,您必須有明確定義的結構定義和 Hive 樣式的分區。在精選區域中為特定資料表提供結構定義時,資料應符合為資料表定義的結構定義,且不得發生結構定義漂移。也就是說,資料應與資料表定義的結構定義相容,且新分區的結構定義不應與資料表結構定義衝突。
特選區域支援 Cloud Storage 值區層級或 BigQuery 資料集層級的讀取和寫入權限精細度。
事前準備
如要在湖泊中新增儲存區,必須先有湖泊。如果尚未建立湖泊,請先建立湖泊。
大多數 gcloud lake 指令都需要位置。如要指定位置,請設定 --location 參數。
必要的角色
如要取得新增區域所需的權限,請要求管理員授予您專案的 Dataplex 管理員 (roles/dataplex.admin) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
這個預先定義的角色具備 dataplex.lakes.create 權限,這是新增區域的必要權限。
新增可用區
您可以在資料湖泊中新增多個區域,一次只能新增一個儲存區,但建立儲存區時,您仍可使用湖泊。
如要將區域新增至現有資料湖,請按照下列步驟操作:
控制台
在 Google Cloud 控制台,前往 Dataplex Universal Catalog 的「Lakes」(湖泊) 頁面。
按一下要新增可用區的湖泊名稱。
在「區域」分頁中,按一下「新增區域」。
輸入區域的顯示名稱。
按一下「類型」選單,選擇「Raw Zone」(原始可用區) 或「Curated Zone」(收錄的可用區)。進一步瞭解支援的可用區類型。
選用:輸入說明。
在「資料位置」下方,選取「區域性」或「多區域」。 選定後即無法變更。在同一個可用區中,單一區域和多區域的資料不得混用。
選用:啟用中繼資料探索功能,讓 Dataplex Universal Catalog 自動掃描及擷取可用區中的資料中繼資料:
按一下「探索設定」。
確認已選取「啟用中繼資料探索功能」。
選用:在「包含模式」下方,列出要納入探索掃描的檔案。
選用:在「排除模式」下方,列出要從探索掃描中排除的檔案。如果同時輸入「納入」和「排除」模式,系統會先套用「排除」模式。
按一下「重複」選單,然後選取頻率。如果選取「自訂」,請在「排程」欄位中輸入工作排程。否則,系統會自動填入「時間表」值。
按一下「時區」選單,然後選取時區。
點選「建立」。
REST
如要新增區域,請使用 lakes.zones.create 方法。
系統應該會在幾分鐘內建立儲存區。
區域建立成功後,系統會自動將區域設為有效狀態。如果失敗,湖泊就會還原為先前的狀態。
建立可用區後,您可以將 Cloud Storage 值區和 BigQuery 資料集儲存的資料對應為可用區的資產。詳情請參閱「新增資產」。
後續步驟
- 瞭解如何管理 buckets。
- 瞭解如何建立湖泊。
- 進一步瞭解 Cloud 稽核記錄。