關於歷程圖表

資料歷程會追蹤資料資產之間的關係,以及轉換資料資產的程序,協助您瞭解資料在系統中的移動方式。您可以在 Google Cloud 控制台中以圖表和清單的形式查看這項沿襲資訊。

本文將概略說明資料歷程資訊模型、資料表和資料欄層級的歷程精細程度,以及如何使用圖表和清單檢視畫面探索資料歷程。

資料歷程資訊模型

歷程記錄會記錄資料從來源轉換至目標的過程。Data Lineage API 會收集這項資訊,並使用程序、執行作業和事件的概念,將資訊整理成階層式資料模型。

  • 程序:資料轉換定義。
  • 執行:執行程序。
  • 事件:記錄執行期間的資料移動情形。

程序

程序是指特定系統的資料轉換作業定義。就 BigQuery 沿襲而言,程序是支援的工作類型的工作。相同 SQL 查詢的所有執行作業都會連結至單一程序,方便您追蹤特定轉換邏輯的每個執行個體。

舉例來說,下列 SQL 查詢就是一個程序。這項查詢會從兩個來源資料表計算各供應商的行程總數,並建立資料表。

  CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
  AS
  SELECT
      vendor_id,
      COUNT(*) AS number_of_trips
  FROM
      (
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
          UNION ALL
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
      )
  GROUP BY
      vendor_id;

程序的 REST 資源名稱格式為 projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID

例如:projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6

如要進一步瞭解 process 資源,請參閱「程序資源參考資料」。

執行

執行作業是指單次執行程序。程序可以多次執行。

每次執行都是一項獨一無二的作業,具有 startTimeendTime 和最終狀態 (例如 COMPLETEDFAILEDABORTED)。

舉例來說,在上午 9:00 執行「程序」部分中的 SQL 查詢,會建立特定執行作業。上午 10 點再次執行相同查詢時,系統會建立新的獨立執行作業。這兩項執行作業都連結至同一個父項程序。

執行的 REST 資源名稱格式顯示,該執行是程序的子項: projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID

例如:projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1

如要進一步瞭解 run 資源,請參閱執行資源參考資料

事件

事件代表資料轉換在來源和目標實體之間移動資料的時間點。事件是特定資料移動的細微記錄,可將特定執行的來源和目標資料表連結起來。事件也可以有多個來源和目標。

舉例來說,如果執行作業時執行「程序」一節中討論的 SQL 查詢,沿襲事件會記錄 nyc_green_trips_2021nyc_green_trips_2022 來源資料表用於建立 total_green_trips_22_21 目標資料表。

沿襲事件包含定義來源和目標的連結清單。系統會使用事件建立沿襲圖。 雖然 Google Cloud 控制台會顯示這些沿襲圖,但不會直接顯示個別事件。您可以使用 Data Lineage API 建立、讀取及刪除事件,但無法更新事件。

事件中的每個連結都會定義從來源實體到目標實體的單一資料流路徑。實體是指資料資產的參照,例如 BigQuery 資料表,並由完整名稱 (FQN) 識別。單一事件可以包含多個連結,這在資料表聯結等作業中很常見,因為多個來源會共同促成一個目標。

如要瞭解事件如何支援資料欄層級歷程,請參閱「資料欄層級歷程」。

歷程精細程度

資料沿襲可讓您追蹤資料在資料表和資料欄層級的來源和轉換路徑。

資料表層級的沿襲圖

資料表層級的沿襲圖會顯示整個資料表之間的關係,讓您概略瞭解資料管道。使用資料表層級的沿革,執行下列巨集層級工作:

  • 資料探索。分析師建立新資訊主頁時,可以使用資料表層級的沿革,將摘要資料表追溯至來源,並確認資料來自權威資料庫。

  • 規劃遷移作業。資料庫管理員打算遷移核心資料庫時,可以使用資料表層級的沿襲圖,找出所有依附於該資料庫的下游報表和資訊主頁。

  • 稽核與管理。資料管理員可以使用資料表和資料欄層級的沿襲資訊,檢查含有個人識別資訊 (PII) 的資料表資料在管道中的流動情形。

資料欄層級歷程

資料欄層級的歷程記錄會追蹤個別資料欄之間的資料流動,提供更精細的檢視畫面。在這個檢視畫面中,沿襲事件中的連結代表來源資料欄和目標資料欄之間的關係。每個資料欄層級的連結都有依附元件類型,可說明轉換:

  • Exact copy:在資料欄之間複製值。

  • Other:資料欄之間的其他類型相依關係。

您可以使用資料欄層級沿革執行下列工作:

  • 根本原因分析。如果資料分析師在資料欄中發現不正確的值,可以使用資料欄層級的沿襲追溯至來源資料欄,找出根本原因。

  • 影響分析:資料工程師可以先使用資料欄層級的沿襲,找出所有依附於該資料欄的下游資料欄,再將資料欄設為已淘汰。

  • 驗證指標的資料來源。資料分析師可以使用資料欄層級的沿襲,找出用於計算指標的來源資料欄,不必解讀複雜的 SQL 查詢。

系統會自動收集下列類型 BigQuery 工作的資料欄層級沿襲資料:

Google Cloud 控制台中的沿襲檢視畫面

您可以在 Google Cloud 控制台中透過兩種方式與歷程資訊互動:探索多個可用區域的歷程圖,或使用「歷程探索器」面板,在特定區域中取得更集中的檢視畫面。您也可以切換「圖表」檢視畫面和「清單」檢視畫面,分析不同詳細程度的資料流程。

歷程檢視畫面僅適用於 Dataplex Universal Catalog 項目、BigQuery 資產和 Vertex AI 資源 (模型、資料集、特徵儲存庫檢視畫面和特徵群組)。

如要查看本頁討論的不同檢視畫面,請參閱「搭配 Google Cloud 系統使用資料沿襲」。

歷程圖檢視畫面

「圖表」檢視畫面會以視覺化方式呈現系統和區域的資料資產流程和關係,協助您瞭解資料架構、追蹤來源和目的地,以及找出模式。這些歷程圖表是由 Data Lineage API 服務針對特定 Dataplex Universal Catalog 項目產生,可顯示資料隨時間的轉換方式,以及所選根項目的上游、下游或雙向流程。

Data Lineage API 會自動從支援的系統接收資產資訊,並透過自訂來源的 API 呼叫接收資訊。

圖中的主要元素說明如下:

  • 節點。代表資料實體。在資料表層級的檢視畫面中,節點會顯示資料表名稱和資料欄。在資料欄層級的檢視畫面中,每個節點代表特定資料表和資料欄。

  • 邊緣。連接節點的線條,代表節點間發生的程序。邊緣的外觀取決於沿襲檢視畫面:

    • 在資料表層級的檢視畫面中,邊緣會顯示圖示,指出資料轉換。
    • 在資料欄層級檢視畫面中,邊緣會顯示標籤,指出資料轉換。舉例來說,邊緣標籤可能會顯示 Exact copy,說明來源資料欄如何複製到目標資料欄。
  • 處理圖示和標籤。顯示在邊緣,提供有關轉換的更多資訊。

    • 圖示。代表轉換程序。手動探索圖表時,邊緣上的圖示代表程序的來源系統 (例如 BigQuery 或 Vertex AI)。如果涉及多個程序,系統會顯示「多個程序」圖示。如果程序來源系統不明,則會使用齒輪圖示。套用篩選器後,所有程序都會使用齒輪圖示。
    • 標籤。在資料欄層級的沿襲檢視畫面中,標籤會說明資料欄之間的依附元件類型:Exact copyOther

手動探索歷程圖

開啟「沿襲」分頁時,系統會預設顯示「圖表」檢視畫面。預設檢視畫面會提供系統和區域的概要總覽,並可手動和逐步擴展圖表,一次載入五個節點。邊緣的程序圖示代表來源系統,或表示多個程序。

預設歷程圖檢視畫面,顯示相互連結的資料資產。
預設歷程圖檢視畫面

套用篩選器,取得特定沿襲檢視畫面

如要篩選特定區域的沿襲資料,以便進行深入分析,請使用「沿襲探索器」面板。以下列出幾個可切換至焦點檢視畫面的條件:

  • 資料欄名稱:依資料欄名稱篩選歷程,查看資料欄層級的詳細資料。
  • 方向:顯示上游或下游沿襲,或兩者皆顯示。
  • 時間範圍:根據特定開始或結束時間篩選沿襲。
  • 依附元件類型:依據依附元件類型篩選資料欄層級的歷程。 可用的選項包括 AllExact copy
歷程記錄探索工具面板,顯示資料欄層級歷程、方向和時間範圍的篩選器。
歷程探索工具面板

系統會自動將焦點檢視畫面中的圖表展開至多 3 個層級,並載入符合篩選條件的所有沿襲。歷程記錄探索工具最多會擷取 10 個層級的歷程記錄圖表,但預設只會展開前 3 個層級。按一下箭頭即可展開圖表,查看其餘等級。

聚焦檢視畫面支援資料表和資料欄層級的沿革,包括從任何選取節點返回根目錄的路徑視覺化。在這個聚焦檢視畫面中,所有程序都會使用一般齒輪圖示。

集中顯示已篩選資料資產的歷程圖表檢視畫面。
專注於表格層級的歷程圖檢視畫面

如要查看資料欄層級的沿革,請採取下列其中一種做法:

  • 在聚焦的「圖表」檢視畫面中,按一下表格中的資料欄圖示,即可切換至資料欄層級的沿襲圖。

    用於切換至資料欄層級歷程的圖示。
    欄圖示
  • 在預設「圖表」檢視畫面或聚焦「圖表」檢視畫面中,在「歷程探索工具」面板套用資料欄名稱。

歷程圖,顯示資料表之間的欄層級關係。
資料欄層級歷程檢視畫面

如要移除所有篩選器並返回預設檢視畫面,請按一下「重設」圖示

節點詳細資料

如要查看節點詳細資料,請按一下節點。側邊面板隨即會顯示所選資料資產的詳細資訊。舉例來說,在表格層級的沿襲檢視畫面中,按一下節點會顯示資產的完整合格名稱、類型和其他相關屬性等資訊。

譜系圖中選取節點的詳細資料面板。
節點詳細資料

稽核和執行記錄

完整的歷程圖是多項工作執行作業的結果,每項工作都會在圖中建立特定連結。系統會將多次執行作業記錄為新的執行作業,但不會改變圖表的靜態外觀。

如要查看這些個別執行的詳細資料,請按一下圖表中的邊緣和程序。在隨即顯示的「查詢」面板中,按一下「執行」分頁標籤。

「查詢」面板,顯示「詳細資料」和「執行」分頁。
查詢面板

檢查轉換邏輯

如要瞭解轉換的業務邏輯,不必搜尋程式碼,只要查看執行的確切 SQL 查詢即可。如要查看 SQL 程式碼,請在圖表上點選含有程序的邊緣。在隨即顯示的側邊面板中,按一下「詳細資料」分頁標籤。

歷程路徑圖表

歷程路徑圖表可協助您追蹤圖表中任何所選節點的路徑,返回根項目。選取節點並按一下「Visualize path」(顯示路徑) 後,圖表只會醒目顯示構成直接沿襲路徑至根項目的節點和程序。

如要查看沿襲路徑的視覺化呈現方式,請在「沿襲關係探索器」面板中套用篩選器,建立焦點圖表檢視畫面。然後在聚焦的「圖表」檢視畫面中,選取節點。在所選節點的詳細資料面板中,按一下「Visualize Path」(路徑視覺化)

歷程路徑圖表適用於資料表和資料欄層級的歷程。您也可以在「清單」檢視畫面中使用沿襲路徑視覺化功能。

資料欄層級歷程圖表檢視畫面中的歷程路徑圖表按鈕。
資料欄層級歷程圖檢視畫面中的歷程路徑圖表按鈕

歷程清單檢視畫面

「清單」檢視畫面會以表格形式呈現沿襲關係,並與「圖表」檢視畫面同步。方便您排序、篩選及下載資料資產。這個檢視畫面非常適合分析來源與目標之間的關係、詳細列出相關資產,以及匯出沿襲資料。

清單檢視畫面適用於資料表和資料欄層級的沿襲。您可以在下列詳細和簡化清單檢視畫面之間切換。

  • 簡易清單檢視:這個檢視畫面可提供歷程中所有資產的簡化不重複清單,「系統」、「專案」、「實體」、「FQN」(完整名稱)、「方向」和「深度」等資料欄,可協助您查看血統中的所有資料資產、這些資產的所在位置、原始來源,以及與所分析中央資產的距離。這項功能非常適合用來概略瞭解參與資料流的所有實體。這是預設檢視畫面。

  • 詳細清單檢視畫面:這個檢視畫面適用於分析個別來源與目標之間的關係。提供「來源」和「目標」的個別資料欄後,您就能查看每個特定的資料轉換連結。如果您需要深入瞭解特定資產配對之間的資料流動情形,例如稽核個別資料流、瞭解資料表之間的依附元件,或是匯出每個連線的詳細沿襲記錄,這個檢視畫面就非常適合。

資料表層級歷程清單檢視畫面

這個檢視畫面會顯示資料表之間的整體關係。 使用提供的篩選器選取所需資料欄。

表格:顯示簡化的表格層級歷程清單檢視畫面。
資料表層級的簡易清單檢視

展開下列各節,查看表格層級清單檢視畫面中可用的資料欄。

簡化版資料表層級清單檢視畫面中可用的資料欄

  • 系統:資料資產所在的系統。例如 BigQuery。
  • 專案:包含資料資產的 Google Cloud 專案 ID。
  • 實體:資料資產的名稱。例如資料表名稱。
  • FQN:原始來源實體或資料欄的完整名稱 (FQN)。
  • 方向:指出所列資產在歷程流程中是上游 (來源) 還是下游 (目標)。
  • 深度:從要分析的中央資產開始,沿著沿襲路徑追溯的步數。

詳細資料表層級清單檢視畫面中可用的資料欄

  • 來源系統:來源資料資產所在的系統。 例如 BigQuery。
  • 來源專案:包含來源資料資產的 Google Cloud 專案 ID。
  • 來源:來源資料資產的名稱。例如資料表名稱。
  • 來源 FQN:來源實體的 FQN。
  • 目標系統:目標資料資產所在的系統。 例如 BigQuery。
  • 目標專案:包含目標資料資產的 Google Cloud 專案 ID。
  • 目標:目標資料資產的名稱。例如資料表名稱。
  • 目標 FQN:目標實體的 FQN。
  • 方向:指出所列資產在歷程流程中是上游 (來源) 還是下游 (目標)。
  • 深度:從要分析的中心資產開始,沿著沿襲路徑追溯的步數。

資料欄層級歷程清單檢視畫面

這個檢視畫面會顯示來源和目標資料表中個別資料欄之間的關係。使用提供的篩選器選取所需資料欄。

表格:顯示簡化的資料欄層級歷程清單檢視畫面。
資料欄層級的簡易清單檢視

展開下列各節,查看資料欄層級清單檢視畫面中可用的資料欄。

簡易資料欄層級清單檢視畫面中可用的資料欄

  • 系統:資料資產所在的系統。例如 BigQuery。
  • 專案:包含資料資產的 Google Cloud 專案 ID。
  • 實體:資料資產的名稱。例如資料表名稱。
  • 資料欄:在實體的「歷程探索工具」面板中選取的特定資料欄。
  • FQN:原始來源實體或資料欄的完整名稱 (FQN)。
  • 方向:指出所列資產在歷程流程中是上游 (來源) 還是下游 (目標)。
  • 深度:從要分析的中心資產開始,沿著沿襲路徑追溯的步數。

詳細資料欄層級清單檢視畫面中可用的資料欄

  • 來源系統:來源資料資產所在的系統。
  • 來源專案:包含來源資料資產的 Google Cloud 專案 ID。
  • 來源 FQN:來源資料欄的 FQN。
  • 目標系統:目標資料資產所在的系統。
  • 目標專案:包含目標資料資產的 Google Cloud 專案 ID。
  • 目標 FQN:目標資料欄的 FQN。
  • 方向:指出資料流向上游或下游。
  • 依附元件類型:說明資料欄之間的關係性質。
  • 深度:從所分析的中央資產開始,沿著沿襲路徑追溯的步數。

後續步驟