代管連線總覽

受管理連線管道會將第三方來源的中繼資料匯入 Knowledge Catalog (舊稱 Dataplex Universal Catalog)。您可以使用這些管道,大規模將中繼資料匯入 Knowledge Catalog,從來源擷取資料。視需要,管道也會在Google Cloud 專案中建立 Knowledge Catalog 項目群組。採用這種做法,您就能根據需求協調工作流程及排定匯入工作。

您可以建構自訂連接器,從各種第三方來源 (包括 MySQL、SQL Server、Oracle、Snowflake 和 Databricks) 擷取中繼資料。或者,您也可以使用社群提供的自訂連結器,連結更多來源。

受管理連線的運作方式

下圖顯示受管理的連線管道。

代管連線管道。

大致來說,受管理連線的運作方式如下:

  1. 為資料來源建立連接器

    連接器必須是 Artifact Registry 映像檔,且可在 Managed Service for Apache Spark 上執行。

  2. 您可以在自動化調度管理平台 Workflows 中執行代管連線管道

  3. 受管理連線管道會執行下列動作:

    1. 如果項目群組不存在,系統會根據您的設定建立目標項目群組。
    2. 執行連接器。連接器會從資料來源擷取中繼資料,並產生可匯入 Knowledge Catalog 的中繼資料匯入檔案。
    3. 監控中繼資料擷取進度。
    4. 執行中繼資料匯入工作,將中繼資料匯入 Knowledge Catalog。
    5. 監控中繼資料匯入工作的進度。

受管理連線管道會使用 Managed Service for Apache Spark 執行連接器,並使用 Knowledge Catalog 中繼資料匯入 API 方法執行中繼資料匯入工作。

您匯入的中繼資料包含 Knowledge Catalog 項目及其各個層面。如要進一步瞭解 Knowledge Catalog 中繼資料,請參閱「關於 Knowledge Catalog 中的中繼資料管理」。

社群提供的自訂連接器

如要從第三方來源匯入中繼資料,可以使用社群提供的自訂連接器。如需設定說明和連接器相關資訊,請參閱各連接器的 README 檔案。

資料來源 存放區
MySQL mysql-connector
Oracle oracle-connector
PostgreSQL postgresql-connector
Snowflake snowflake-connector
SQL Server sql-server-connector

後續步驟