Google 會運用 AI 技術將內容翻譯成你偏好的語言，但可能會出錯。

Cloud Data Fusion 簡介：Studio

本頁面將介紹 Cloud Data Fusion：Studio，這是一個視覺化介面，可透過點選及拖曳操作，從預先建構的外掛程式庫建立資料管道，並在介面中設定、執行及管理管道。在 Studio 中建構管道時，通常會遵循下列程序：

連線至地端部署或雲端資料來源。
準備及轉換資料。
連線至目的地。
測試管道。
執行管道。
排定及觸發管道。

設計及執行管道後，您可以在 Cloud Data Fusion Pipeline Studio 頁面管理管道：

透過偏好設定和執行階段引數將管道參數化，即可重複使用管道。
自訂運算設定檔、管理資源，以及微調管道效能，藉此管理管道執行作業。
編輯管道即可管理管道生命週期。
透過 Git 整合管理管道原始碼控管。

Cloud Data Fusion Studio 的使用者歷程

事前準備

Cloud Data Fusion：Studio 總覽

Studio 包含下列元件。

管理

Cloud Data Fusion 允許每個執行個體有多個命名空間。管理員可以在 Studio 中集中管理所有命名空間，也可以個別管理每個命名空間。

Studio 提供下列管理員控制選項：

系統管理: 在 Studio 中，您可以使用「系統管理員」模組建立新的命名空間，並在系統層級定義中央運算設定檔設定，適用於該執行個體中的每個命名空間。詳情請參閱「管理 Studio 管理功能」。
命名空間管理: 您可以在 Studio 的「命名空間管理員」模組中，管理特定命名空間的設定。針對每個命名空間，您可以定義運算設定檔、執行階段偏好設定、驅動程式、服務帳戶和 Git 設定。詳情請參閱「管理 Studio 管理員」。

管道設計工作室

您可以在 Cloud Data Fusion 網頁介面的 Pipeline Design Studio 中設計及執行管道。設計及執行資料管道的步驟如下：

連結至來源：Cloud Data Fusion 可連結至地端部署和雲端資料來源。Studio 介面預設會提供系統外掛程式，這些外掛程式已預先安裝在 Studio 中。您可以從外掛程式存放區 (又稱「中樞」) 下載其他外掛程式。詳情請參閱「外掛程式總覽」。
準備資料：Cloud Data Fusion 支援使用功能強大的資料準備外掛程式 Wrangler 準備資料。您可以在 Wrangler 中查看、探索及轉換一小部分資料，然後在 Studio 中對整個資料集執行邏輯。這樣一來，您就能快速套用轉換，瞭解轉換對整個資料集的影響。您可以建立多項轉換，並將其新增至方案。詳情請參閱「Wrangler 總覽」。
轉換：轉換外掛程式會在資料從來源載入後變更資料，例如複製記錄、將檔案格式變更為 JSON，或使用 JavaScript 外掛程式建立自訂轉換。詳情請參閱「外掛程式總覽」。
連結至目的地：準備好資料並套用轉換後，即可連結至要載入資料的目的地。Cloud Data Fusion 支援連線至多個目的地。詳情請參閱「外掛程式總覽」。
預覽：設計管道後，如要在部署及執行管道前偵錯，請執行預覽工作。如果遇到任何錯誤，可以在草稿模式中修正。Studio 會使用來源資料集的前 100 列來產生預覽畫面。Studio 會顯示預覽工作的狀態和持續時間。你隨時可以停止這項工作。您也可以在預覽工作執行時監控記錄事件。詳情請參閱「預覽資料」。
管理管道設定：預覽資料後，您可以部署管道並管理下列管道設定：
- 運算設定：您可以變更執行管道的運算設定檔，例如想針對自訂的 Managed Service for Apache Spark 叢集執行管道，而非預設的 Managed Service for Apache Spark 叢集。
- 管道設定：您可以為每個管道啟用或停用檢測，例如時間指標。根據預設，系統會啟用插碼。
- 引擎設定：Spark 是預設的執行引擎。您可以傳遞 Spark 的自訂參數。
- 資源：您可以為 Spark 驅動程式和執行器指定記憶體和 CPU 數量。驅動程式會調度管理 Spark 工作。執行器負責處理 Spark 中的資料。
- 管道快訊：您可以設定管道在執行完畢後傳送快訊，並啟動後續處理工作。設計管道時，您可以建立管道快訊。部署管道後，您就可以查看快訊。如要變更快訊設定，可以編輯管道。
- 轉換下推：如要讓管道在 BigQuery 中執行特定轉換，可以啟用「轉換下推」設定。
詳情請參閱「管理管道設定」。
使用巨集、偏好設定和執行階段引數重複使用管道：Cloud Data Fusion 可讓您重複使用資料管道。有了可重複使用的資料管道，您就能透過單一管道，將資料整合模式套用至各種用途和資料集。可重複使用的管道可提升管理效率。您可以在執行階段設定管道的大部分設定，而不是在設計階段進行硬式編碼。在 Pipeline Design Studio 中，您可以使用巨集將變數新增至外掛程式設定，以便在執行階段指定變數替代字元。詳情請參閱「管理巨集、偏好設定和執行階段引數」。
執行：檢查完管道設定後，即可啟動管道執行作業。您可以在管道執行階段查看狀態變化，例如佈建、啟動、執行和成功。
排定時間及自動調度管理：您可以設定批次資料管道的執行時間和頻率。建立及部署管道後，即可建立排程。在 Pipeline Design Studio 中，您可以對批次資料管道建立觸發條件，在管道執行完畢時執行，藉此自動化調度管理管道。這些管道稱為下游和上游管道。您可以在下游管道上建立觸發條件，以便根據一或多個上游管道的完成情況執行管道。

建議：您也可以使用 Composer 自動化調度管理 Cloud Data Fusion 中的管道。詳情請參閱「排定管道時間」和「協調管道」。
編輯管道：Cloud Data Fusion 可讓您編輯已部署的管道。編輯已部署的管道時，系統會建立同名的新管道版本，並標示為最新版本。這樣一來，您就能以疊代方式開發管道，不必複製管道 (複製管道會建立名稱不同的新管道)。詳情請參閱「編輯管道」一文。
來源控管管理：Cloud Data Fusion 可讓您使用 GitHub 來源控管管理管道，在開發和生產環境之間更妥善地管理管道。
記錄和監控：如要監控管道指標和記錄，建議您啟用 Stackdriver Logging 服務，搭配 Cloud Logging 使用 Cloud Data Fusion 管道。

後續步驟

進一步瞭解如何管理工作室管理員。