Cloud Data Fusion 總覽

Cloud Data Fusion 是全代管的雲端原生企業級資料整合服務,可讓使用者快速建立及管理資料管道。您可以使用 Cloud Data Fusion 網頁介面建構可擴充的資料整合解決方案。您可透過這項服務連線至各種資料來源、轉換資料,然後將資料傳輸至各種目的地系統,不必管理基礎架構。

Cloud Data Fusion 採用開放原始碼專案 CDAP

開始使用 Cloud Data Fusion

您可以在幾分鐘內開始探索 Cloud Data Fusion。

探索 Cloud Data Fusion

以下各節說明 Cloud Data Fusion 的主要元件。

用戶群專案

建構和自動化調度管理 Cloud Data Fusion 管道,以及儲存管道中繼資料的一組服務,會佈建於獨立租用環境內的租戶專案中。為每個已佈建 Cloud Data Fusion 執行個體的客戶專案,建立獨立的租戶專案。租戶專案會繼承客戶專案的所有網路和防火牆設定。

Cloud Data Fusion:控制台

Cloud Data Fusion 控制台 (也稱為控制層) 是一組 API 作業和網頁介面,用於處理 Cloud Data Fusion 執行個體本身,例如建立、刪除、重新啟動及更新執行個體。

Cloud Data Fusion:Studio

Cloud Data Fusion Studio (又稱資料平面) 是一組 REST API 和網頁介面作業,用於處理管道和相關構件的建立、執行及管理作業。

概念

本節將介紹 Cloud Data Fusion 的一些核心概念。

概念 說明
Cloud Data Fusion 執行個體
  • Cloud Data Fusion 執行個體是 Cloud Data Fusion 的專屬部署作業。如要開始使用 Cloud Data Fusion,請透過 Google Cloud 控制台建立 Cloud Data Fusion 執行個體。
  • 您可以在單一 Google Cloud 控制台 專案中建立多個執行個體,並指定要建立 Cloud Data Fusion 執行個體的 Google Cloud 區域。
  • 您可以依據需求與成本限制,建立開發人員版、基本版或企業版執行個體。
  • 每個 Cloud Data Fusion 執行個體都包含專屬、獨立的 Cloud Data Fusion 部署作業,其中包含的一組服務會負責管道生命週期管理、自動化調度管理、協調作業及中繼資料管理。這些服務會使用租戶專案內的長期執行資源來執行。
命名空間 命名空間是 Cloud Data Fusion 執行個體中,應用程式、資料和相關聯中繼資料的邏輯分組。您可以將命名空間視為執行個體的分割區。在單一執行個體中,一個命名空間會獨立於另一個命名空間,儲存實體的資料和中繼資料。
管道
  • 管道可讓您以視覺方式設計資料,並針對多個地端部署和雲端資料來源,控制其擷取、轉換、結合、匯總並載入資料的流程。
  • 建構管道可讓您建立複雜的資料處理工作流程,解決資料擷取、整合和遷移的問題。您可以視需求使用 Cloud Data Fusion 建構批次和即時管道。
  • 管道可讓您使用資料的邏輯流程來表達資料處理工作流程,同時 Cloud Data Fusion 完好控管在執行環境上實際執行所需的所有功能。
管道節點
  • 在 Cloud Data Fusion 網頁介面的「Studio」頁面中,管道會以有向非循環圖 (DAG) 的一系列節點表示,形成單向的流程。
  • 節點代表您可對管道執行的各種動作,例如從來源讀取資料、執行資料轉換,以及將輸出內容寫入接收器。您可以在 Cloud Data Fusion 網頁介面中,將來源、轉換、接收器和其他節點連結在一起,開發資料管道。
外掛程式
  • 外掛程式為可自訂模組,可用於擴充 Cloud Data Fusion 的功能。
  • Cloud Data Fusion 提供來源、轉換、匯總、接收器、錯誤收集器、提醒發布器、動作和執行後動作的外掛程式。
  • 外掛程式有時也稱為節點,通常是在 Cloud Data Fusion 網頁介面的情境中。
  • 如要探索及存取熱門的 Cloud Data Fusion 外掛程式,請參閱「 Cloud Data Fusion 外掛程式」。
中樞 在 Cloud Data Fusion 網頁介面中,如要瀏覽外掛程式、範例管道和其他整合項目,請按一下「中樞」。外掛程式發布新版本時,任何相容的執行個體都會在 Hub 中顯示該版本。即使執行個體是在外掛程式發布前建立,也適用這項規定。
管道預覽
  • 您可以在 Cloud Data Fusion Studio 中,使用資料子集上的「預覽」功能,測試管道設計的準確度。
  • 預覽版管道會在租戶專案中執行。
管道執行作業
  • Cloud Data Fusion 會建立暫時的執行環境來執行管道。
  • Cloud Data Fusion 支援 Managed Service for Apache Spark 做為執行環境
  • Cloud Data Fusion 會在管道執行的一開始,在您客戶專案中佈建暫時的 Managed Service for Apache Spark 叢集,並在該叢集中使用 Spark 執行管道,然後在管道執行完成後刪除該叢集。
  • 或者,若您在受控環境中管理 Managed Service for Apache Spark 叢集 (透過 Terraform 等技術),您也可將 Cloud Data Fusion 設定為不要佈建叢集。在這些環境中,您可以對現有的 Managed Service for Apache Spark 叢集執行管道。
運算設定檔
  • 運算設定檔會指定管道的執行方式和地點。設定檔會封裝管道實際執行環境設定及刪除所需的資訊。
  • 舉例來說,運算設定檔包含下列項目:
    • 執行佈建工具
    • 資源 (記憶體和 CPU)
    • 節點數下限和上限
    • 其他值
  • 設定檔會依名稱識別,且必須指派佈建工具和相關設定。設定檔可存在於 Cloud Data Fusion 執行個體層級或命名空間層級。
  • Cloud Data Fusion 預設的運算設定檔為「自動調整」。
可重複使用的管道
  • Cloud Data Fusion 中可重複使用的資料管道,可讓您建立單一管道,將資料整合模式套用至各種使用案例和資料集。
  • 可重複使用的管道可在執行階段設定管道的大部分設定,而非在設計階段硬式編碼,因此更容易管理。
觸發條件
  • Cloud Data Fusion 支援在資料管道 (稱為下游管道) 上建立觸發條件,以便在完成一或多個不同管道 (稱為上游管道) 時執行。您可以選擇下游管道的執行時間,例如上游管道執行成功、失敗、停止或上述情況的任何組合時。
  • 觸發條件適用於下列情況:
    • 一次清除資料,然後提供給多個下游管道使用。
    • 在管道之間分享資訊,例如執行階段引數和外掛程式設定。這就是所謂的「酬載設定」
    • 使用一組動態管道,根據每小時、每天、每週或每月資料執行,而不是使用每次執行都必須更新的靜態管道。

Cloud Data Fusion 資源

探索 Cloud Data Fusion 資源:

後續步驟