本頁面說明如何建立 Cloud Data Fusion 執行個體。
事前準備
- 啟用 Cloud Data Fusion API。
- 需具備
instances.create權限,才能建立 Cloud Data Fusion 執行個體。詳情請參閱存取控管一文。 - 系統會以 Compute Engine 預設服務帳戶的身分執行 Cloud Data Fusion 執行個體。如要瞭解可用的類型和角色,請參閱服務帳戶一文。
- 根據預設,Cloud Data Fusion 會使用專案中的 Managed Service for Apache Spark 叢集執行管道。確認專案符合 Managed Service for Apache Spark 網路需求。
- 新專案一開始即設有預設網路。預設網路會預先填入防火牆規則 default-allow-ssh,允許從任何來源透過 TCP 通訊埠 22 連線到網路中任何執行個體的輸入連線。在 6.2.0 之前的版本中,如果 Cloud Data Fusion 執行個體使用的網路中沒有這項規則,您必須建立這項規則,允許 TCP 通訊埠 22 的輸入流量。
建立執行個體
控制台
若您已啟用 API, Google Cloud 主控台中的「Cloud Data Fusion」區段即會顯示「Instances」(執行個體) 頁面,可供建立及管理 Cloud Data Fusion 執行個體。
- 前往控制台的 Cloud Data Fusion 頁面。
- 按一下「執行個體」,然後點選「建立執行個體」。
- 輸入執行個體名稱。
- 輸入執行個體的說明。
- 指定要建立執行個體的「Region」(區域)。
- 指定 Cloud Data Fusion 版本。
- 選取「版本」。 預設值為「Basic」(基本)。
- 選用:按一下「新增加速器」,選取要在執行個體中使用的加速器。
- 指定用於在 Managed Service for Apache Spark 中執行 Cloud Data Fusion 管道的Managed Service for Apache Spark 服務帳戶。預設值為 Compute Engine 帳戶。無論使用哪個版本,請確認服務帳戶具有適當的身分與存取權管理角色,以滿足您的需求。詳情請參閱「授予服務帳戶使用者授權」。
選用:指定任何進階選項。如未指定任何項目,系統會使用下列預設值:
類別 設定 說明 預設 私人 IP 啟用內部 IP 位址 建立 Cloud Data Fusion 執行個體,並使用內部 IP 位址。 已停用 進階監控與記錄功能 啟用 Managed Service for Apache Spark Cloud Logging
啟用 Managed Service for Apache Spark Cloud Monitoring
在 Cloud Logging 中查看進階管道記錄檔。 已停用 Knowledge Catalog 資料歷程整合 啟用或停用與 Knowledge Catalog 資料歷程的整合功能 在 Knowledge Catalog 中查看歷程。 已停用 加密 使用客戶自行管理的加密金鑰 (CMEK) 在 6.5 以上版本中,使用 角色型存取權控管。 已停用 標籤 鍵/值組合 用來加註任一相關基礎資源 (如 Compute Engine VM) 的執行個體資源標籤。標籤鍵和標籤值只能包含字母、數字、破折號和底線。標籤鍵開頭必須是字母或數字。 無 維護作業 啟用維護期間 設定 Cloud Data Fusion 可對執行個體執行維護作業的時間範圍。詳情請參閱「 設定維護期間」。 已停用 點按「Create」(建立)。執行個體建立程序最多需要 30 分鐘才會完成。
Cloud Data Fusion 建立執行個體時,「Instances」(執行個體) 頁面上的執行個體名稱旁會顯示進度輪。完成後,這個圖示會變成綠色的勾號圖案,代表您可以開始使用這個執行個體。
API
建立執行個體:
如要使用 Cloud Data Fusion REST API 建立 Cloud Data Fusion 執行個體,請建構 instances.create API 要求,並填入 Instance 資源和設定資訊。
後續步驟
- 進一步瞭解 Cloud Data Fusion。
- 逐步完成教學課程。