Cloud Data Fusion 網路簡介

本頁面提供背景資訊,說明如何從設計和執行環境,透過公開或私人的 Cloud Data Fusion 執行個體連線至資料來源。

事前準備

如要在 Cloud Data Fusion 中使用網路,您必須先瞭解下列基本概念:

用戶群專案

Cloud Data Fusion 會建立租戶專案,其中包含代您管理管道所需的資源和服務,例如在客戶專案中的 Managed Service for Apache Spark 叢集上執行管道時。

系統不會直接向您顯示租戶專案,不過建立私人執行個體時,您可以使用專案名稱設定虛擬私有雲對等互連。租戶專案中的每個私有執行個體都有自己的虛擬私有雲網路和子網路。

專案可以有多個 Cloud Data Fusion 執行個體。在 Cloud Data Fusion 使用者介面或 Google Cloud CLI 中存取執行個體時,您可以管理該執行個體所擁有的資源和服務。
詳情請參閱 Service Infrastructure 說明文件中的租戶專案

客戶專案

客戶會建立並擁有這個專案。根據預設,Cloud Data Fusion 會在這個專案中建立暫時的 Managed Service for Apache Spark 叢集,以執行管道。

Cloud Data Fusion 執行個體

Cloud Data Fusion 執行個體是 Cloud Data Fusion 的專屬部署作業,您可以在其中設計及執行管道。您可以在單一專案中建立多個執行個體,並指定要建立 Cloud Data Fusion 執行個體的 Google Cloud 區域。您可以依據需求與成本限制,建立使用 Cloud Data Fusion 開發人員版、基本版或企業版版本的執行個體。每個執行個體都有專屬、獨立的 Cloud Data Fusion 部署,其中包含的一組服務會負責管道生命週期管理、自動化調度管理、協調作業及中繼資料管理。這些服務會使用租戶專案內的長期執行資源來執行。

網路圖表

下圖顯示建構資料管道時的連線,這些管道會從各種地端部署和雲端資料來源擷取、轉換、混合、匯總及載入資料。

請參閱控管私人執行個體中的輸出流量連線至公開來源的圖表。

管道設計與執行

Cloud Data Fusion 提供設計和執行環境的分隔功能,讓您設計一次管道,即可在多個環境中執行。設計環境位於租戶專案中,執行環境則位於一或多個客戶專案中。

範例:您使用 Wrangler 和 Preview 等 Cloud Data Fusion 服務設計管道。這些服務會在租戶專案中執行,資料存取權則由 Google 管理的「Cloud Data Fusion 服務代理人」角色控管。接著在客戶專案中執行管道,以便使用 Managed Service for Apache Spark 叢集。在客戶專案中,預設的 Compute Engine 服務帳戶會控管資料存取權。您可以設定專案,改用自訂服務帳戶。

如要進一步瞭解如何設定服務帳戶,請參閱「Cloud Data Fusion 服務帳戶」。

設計環境

在客戶專案中建立 Cloud Data Fusion 執行個體時,Cloud Data Fusion 會自動建立獨立的 Google 管理租戶專案,以執行管理管道和中繼資料生命週期所需的服務、Cloud Data Fusion UI,以及「預覽」和「Wrangler」等設計階段工具。

Cloud Data Fusion 中的 DNS 解析

如要在設計階段環境中解析網域名稱,以便處理及預覽要移轉至 Google Cloud的資料,請使用 DNS 對等互連 (適用於 Cloud Data Fusion 6.7.0 以上版本)。您可以使用來源和接收器的網域或主機名稱,不必像 IP 位址一樣經常重新設定。

在 Cloud Data Fusion 的設計階段環境中,當您測試連線並預覽使用地端部署或其他伺服器 (例如資料庫或 FTP 伺服器) 網域名稱的管道時,建議在私人虛擬私有雲網路中進行 DNS 解析。

詳情請參閱「DNS 對等互連」和「Cloud DNS 轉送」。

執行環境

在執行個體中驗證及部署管道後,您可以手動執行管道,也可以透過時間排程或管道狀態觸發條件執行管道。

無論執行環境是由 Cloud Data Fusion 或客戶佈建及管理,該環境都會存在於客戶專案中。

公開執行個體 (預設)

如要佈建 Cloud Data Fusion 執行個體,最簡單的方法就是建立公開執行個體。這項服務很適合做為起點,並提供公開網際網路上的外部端點存取權。

Cloud Data Fusion 中的公開執行個體會使用專案中的預設虛擬私有雲網路。

預設虛擬私有雲網路具有下列特性:

  • 每個區域的自動產生子網路
  • 路徑資料表
  • 防火牆規則,確保運算資源之間的通訊

跨區域網路

建立新專案時,預設 VPC 網路的優點是會使用預先定義的 IP 位址範圍 (以 CIDR 區塊表示),自動填入每個區域的子網路。IP 位址範圍開頭為 10.128.0.0/2010.132.0.0/20,涵蓋 Google Cloud 全球區域。

為確保運算資源能跨區域彼此連線,預設虛擬私有雲網路會為每個子網路設定預設的本機路徑。設定網際網路的預設路徑 (0.0.0.0/0) 後,您就能存取網際網路,並擷取任何未轉送的網路流量。

防火牆規則

預設虛擬私有雲網路提供一組防火牆規則:

預設 說明
預設允許 icmp 為來源 0.0.0.0/0 啟用 icmp 通訊協定
預設允許內部 為來源 10.128.0.0/9 啟用 tcp:0-65535udp:0-65535icmp,涵蓋的 IP 位址範圍為最小值 10.128.0.1 到最大值 10.255.255.254
預設允許 rdp 為來源「0.0.0.0/0」啟用「tcp:3389
預設允許 ssh 為來源「0.0.0.0/0」啟用「tcp:22

這些預設虛擬私有雲網路設定可將設定雲端服務 (包括 Cloud Data Fusion) 的必要條件降到最低。由於擔心網路安全,機構通常不允許您使用預設虛擬私有雲網路進行業務作業。如果沒有預設虛擬私有雲網路,您就無法建立 Cloud Data Fusion 公用執行個體。請改為建立私人執行個體

預設虛擬私有雲網路不會授予資源開放存取權。而是由 Identity and Access Management (IAM) 控管存取權:

  • 您必須通過身分驗證,才能登入 Google Cloud。
  • 登入後,您需要明確的權限 (例如檢視者角色),才能查看 Google Cloud 服務。

私人執行個體

有些機構規定所有實際工作環境系統都不得使用公開 IP 位址。Cloud Data Fusion 私人執行個體符合所有類型的虛擬私有雲網路設定需求。

Cloud Data Fusion 中的 Private Service Connect

Cloud Data Fusion 執行個體可能需要連線至位於地端部署、 Google Cloud或其他雲端服務供應商的資源。使用內部 IP 位址搭配 Cloud Data Fusion 時,系統會透過Google Cloud 專案中的虛擬私有雲網路建立與外部資源的連線。網路流量不會經過公開網際網路,如果 Cloud Data Fusion 是透過虛擬私有雲網路對等互連存取虛擬私有雲,就會有相關限制,使用大型網路時會更加明顯。

透過 Private Service Connect 介面,Cloud Data Fusion 可連線至您的虛擬私有雲,不必使用虛擬私有雲網路對等互連。Private Service Connect 介面是一種 Private Service Connect,可讓 Cloud Data Fusion 啟動與用戶虛擬私有雲網路的私密安全連線。這不僅提供彈性和易於存取 (例如虛擬私有雲網路對等互連),還提供 Private Service Connect 提供的明確授權和用戶端控制項。詳情請參閱「建立使用 Private Service Connect 的私人執行個體」。

在設計和執行環境中存取資料

在公開執行個體中,網路通訊會透過開放式網際網路進行,不建議用於重要環境。如要安全存取資料來源,請務必從執行環境中的私人執行個體執行管道。

來源存取權

存取資料來源、公開和私人執行個體時:

  • 使用 Private Google Access 向 API 發出外送呼叫 Google Cloud
  • 透過 VPC 對等互連與執行 (Managed Service for Apache Spark) 環境通訊

下表比較各種資料來源在設計和執行期間的公開和私人執行個體:

資料來源 公有 Cloud Data Fusion 執行個體
(設計階段)
Public Cloud Data Fusion Managed Service for Apache Spark
(執行)
Cloud Data Fusion 私人執行個體
(設計階段)
Private Cloud Data Fusion Managed Service for Apache Spark
(執行)
Google Cloud source
(授予權限並設定防火牆規則後)
地端部署來源
(設定 VPN/互連、授予權限及設定防火牆規則後)
公用網際網路來源
(授予權限並設定防火牆規則後)

後續步驟