Cloud Data Fusion 簡介:Studio

本頁面將介紹 Cloud Data Fusion:Studio,這是一個視覺化介面,可透過點選及拖曳操作,從預先建構的外掛程式庫建立資料管道,並在介面中設定、執行及管理管道。在 Studio 中建構管道時,通常會遵循下列程序:

  1. 連線至地端部署或雲端資料來源。
  2. 準備及轉換資料。
  3. 連線至目的地。
  4. 測試管道。
  5. 執行管道。
  6. 排定及觸發管道。

設計及執行管道後,您可以在 Cloud Data Fusion Pipeline Studio 頁面管理管道:

  • 透過偏好設定和執行階段引數將管道參數化,即可重複使用管道。
  • 自訂運算設定檔、管理資源,以及微調管道效能,藉此管理管道執行作業。
  • 編輯管道即可管理管道生命週期。
  • 透過 Git 整合管理管道原始碼控管。

Cloud Data Fusion Studio 的使用者歷程

事前準備

Cloud Data Fusion:Studio 總覽

Studio 包含下列元件。

管理

Cloud Data Fusion 允許每個執行個體有多個命名空間。管理員可以在 Studio 中集中管理所有命名空間,也可以個別管理每個命名空間。

Studio 提供下列管理員控制選項:

系統管理
在 Studio 中,您可以使用「系統管理員」模組建立新的命名空間,並在系統層級定義中央運算設定檔設定,適用於該執行個體中的每個命名空間。詳情請參閱「管理 Studio 管理功能」。
命名空間管理
您可以在 Studio 的「命名空間管理員」模組中,管理特定命名空間的設定。針對每個命名空間,您可以定義運算設定檔、執行階段偏好設定、驅動程式、服務帳戶和 Git 設定。詳情請參閱「管理 Studio 管理員」。

管道設計工作室

您可以在 Cloud Data Fusion 網頁介面的 Pipeline Design Studio 中設計及執行管道。設計及執行資料管道的步驟如下:

  • 連結至來源:Cloud Data Fusion 可連結至地端部署和雲端資料來源。Studio 介面預設會提供系統外掛程式,這些外掛程式已預先安裝在 Studio 中。您可以從外掛程式存放區 (又稱「中樞」) 下載其他外掛程式。詳情請參閱「外掛程式總覽」。
  • 準備資料:Cloud Data Fusion 支援使用功能強大的資料準備外掛程式 Wrangler 準備資料。您可以在 Wrangler 中查看、探索及轉換一小部分資料,然後在 Studio 中對整個資料集執行邏輯。這樣一來,您就能快速套用轉換,瞭解轉換對整個資料集的影響。您可以建立多項轉換,並將其新增至方案。詳情請參閱「Wrangler 總覽」。
  • 轉換:轉換外掛程式會在資料從來源載入後變更資料,例如複製記錄、將檔案格式變更為 JSON,或使用 JavaScript 外掛程式建立自訂轉換。詳情請參閱「外掛程式總覽」。
  • 連結至目的地:準備好資料並套用轉換後,即可連結至要載入資料的目的地。Cloud Data Fusion 支援連線至多個目的地。詳情請參閱「外掛程式總覽」。
  • 預覽:設計管道後,如要在部署及執行管道前偵錯,請執行預覽工作。如果遇到任何錯誤,可以在草稿模式中修正。Studio 會使用來源資料集的前 100 列來產生預覽畫面。Studio 會顯示預覽工作的狀態和持續時間。你隨時可以停止這項工作。 您也可以在預覽工作執行時監控記錄事件。詳情請參閱「預覽資料」。
  • 管理管道設定:預覽資料後,您可以部署管道並管理下列管道設定:

    • 運算設定:您可以變更執行管道的運算設定檔,例如想針對自訂的 Managed Service for Apache Spark 叢集執行管道,而非預設的 Managed Service for Apache Spark 叢集。
    • 管道設定:您可以為每個管道啟用或停用檢測,例如時間指標。根據預設,系統會啟用插碼。
    • 引擎設定:Spark 是預設的執行引擎。您可以傳遞 Spark 的自訂參數。
    • 資源:您可以為 Spark 驅動程式和執行器指定記憶體和 CPU 數量。驅動程式會調度管理 Spark 工作。執行器負責處理 Spark 中的資料。
    • 管道快訊:您可以設定管道在執行完畢後傳送快訊,並啟動後續處理工作。設計管道時,您可以建立管道快訊。部署管道後,您就可以查看快訊。如要變更快訊設定,可以編輯管道。
    • 轉換下推:如要讓管道在 BigQuery 中執行特定轉換,可以啟用「轉換下推」設定。

    詳情請參閱「管理管道設定」。

  • 使用巨集、偏好設定和執行階段引數重複使用管道:Cloud Data Fusion 可讓您重複使用資料管道。有了可重複使用的資料管道,您就能透過單一管道,將資料整合模式套用至各種用途和資料集。可重複使用的管道可提升管理效率。您可以在執行階段設定管道的大部分設定,而不是在設計階段進行硬式編碼。在 Pipeline Design Studio 中,您可以使用巨集將變數新增至外掛程式設定,以便在執行階段指定變數替代字元。詳情請參閱「管理巨集、偏好設定和執行階段引數」。

  • 執行:檢查完管道設定後,即可啟動管道執行作業。您可以在管道執行階段查看狀態變化,例如佈建、啟動、執行和成功。

  • 排定時間及自動調度管理:您可以設定批次資料管道的執行時間和頻率。建立及部署管道後,即可建立排程。在 Pipeline Design Studio 中,您可以對批次資料管道建立觸發條件,在管道執行完畢時執行,藉此自動化調度管理管道。這些管道稱為下游和上游管道。您可以在下游管道上建立觸發條件,以便根據一或多個上游管道的完成情況執行管道。

    建議:您也可以使用 Composer 自動化調度管理 Cloud Data Fusion 中的管道。詳情請參閱「排定管道時間」和「協調管道」。

  • 編輯管道:Cloud Data Fusion 可讓您編輯已部署的管道。編輯已部署的管道時,系統會建立同名的新管道版本,並標示為最新版本。這樣一來,您就能以疊代方式開發管道,不必複製管道 (複製管道會建立名稱不同的新管道)。詳情請參閱「編輯管道」一文。

  • 來源控管管理:Cloud Data Fusion 可讓您使用 GitHub 來源控管管理管道,在開發和生產環境之間更妥善地管理管道。

  • 記錄和監控:如要監控管道指標和記錄,建議您啟用 Stackdriver Logging 服務,搭配 Cloud Logging 使用 Cloud Data Fusion 管道。

後續步驟