建立連結叢集

Connect 叢集提供連接器環境，可協助您將資料從現有的 Kafka 部署作業移至 Google Cloud Managed Service for Apache Kafka 叢集，或將資料從 Managed Service for Apache Kafka 叢集移至其他 Google Cloud 服務或 Kafka 叢集。次要 Kafka 叢集可以是另一個 Google Cloud Managed Service for Apache Kafka 叢集、自行管理的叢集，或是地端叢集。

事前準備

請確認您已建立 Managed Service for Apache Kafka 叢集。您需要 Connect 叢集要附加的 Managed Service for Apache Kafka 叢集名稱。

每個 Connect 叢集都會與一個 Managed Service for Apache Kafka 叢集相關聯。這個叢集會儲存在 Connect 叢集上執行的連接器狀態。

建立 Connect 叢集所需的角色和權限

如要取得建立 Connect 叢集所需的權限，請要求管理員授予您專案的代管 Kafka Connect 叢集編輯者 (roles/managedkafka.connectClusterEditor) IAM 角色。如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

這個預先定義的角色具備建立 Connect 叢集所需的權限。如要查看確切的必要權限，請展開「Required permissions」(必要權限) 部分：

所需權限

如要建立 Connect 叢集，您必須具備下列權限：

在指定位置授予建立 Connect 叢集的權限： managedkafka.connectClusters.create

您或許還可透過自訂角色或其他預先定義的角色取得這些權限。

如要進一步瞭解這個角色，請參閱「Managed Service for Apache Kafka 預先定義的角色」。

必要的 ACL 主體

根據預設，如果未設定存取控制清單，Managed Service for Apache Kafka 叢集會允許 Connect 叢集存取資源。方法是將 allow.everyone.if.no.acl.found 設為 true，這是預設設定。

不過，如果 Managed Service for Apache Kafka 叢集已設定 ACL，Connect 叢集不會自動取得資源的讀寫權限。您必須手動授予。

在存取控制清單中做為主體的 Connect 叢集服務帳戶格式如下：User:service-{consumer project number}@gcp-sa-managedkafka.iam.gserviceaccount.com。

如果您已在 Kafka 叢集上設定 ACL，請使用下列指令，將主題的讀寫權限和消費者群組的讀取權限授予 Connect 叢集：

/bin/kafka-acls.sh \
    --bootstrap-server BOOTSTRAP_ADDR \
    --command-config PATH_TO_CLIENT_PROPERTIES \
    --add \
    --allow-principal User:service-{consumer project number}@gcp-sa-managedkafka.iam.gserviceaccount.com \
    --operation READ --operation WRITE --topic *

/bin/kafka-acls.sh \
    --bootstrap-server BOOTSTRAP_ADDR \
    --command-config PATH_TO_CLIENT_PROPERTIES \
    --add \
    --allow-principal User:service-{consumer project number}@gcp-sa-managedkafka.iam.gserviceaccount.com \
    --operation READ --group *

如要進一步瞭解這些指令，請參閱「設定 Apache Kafka ACL，進行精細的存取權控管」。

在其他專案中建立連結叢集

建立 Connect 叢集時，該叢集會與同一專案中的 Managed Service for Apache Kafka 叢集共用服務代理。如果這個 Managed Service for Apache Kafka 叢集指定為附加至 Connect 叢集的主要 Kafka 叢集，則不需要其他權限。

服務代理的格式為 service-<project_number>@gcp-sa-managedkafka.iam.gserviceaccount.com。專案編號是指包含 Connect 叢集和 Managed Service for Apache Kafka 叢集的專案。

如果 Connect 叢集位於專案 A，而相關聯的 Managed Service for Apache Kafka 叢集位於專案 B，請按照下列步驟操作：

確認已為專案 A 和專案 B 啟用 Managed Kafka API。

啟用 API
找出專案 A 中 Connect 叢集的服務代理程式。

服務代理的格式為 service-<project_number>@gcp-sa-managedkafka.iam.gserviceaccount.com。
在專案 B 中，將 Managed Kafka Client 角色 (roles/managedkafka.client) 授予 Connect 叢集的服務帳戶。

這個角色會授予連線至 Managed Service for Apache Kafka 叢集所需的權限，並執行讀取和寫入資料等作業。

如要進一步瞭解如何授予角色，請參閱「建立及授予服務代理程式角色」。

授予權限時，請務必遵循最小權限原則。只授予必要權限，確保安全性並防範未經授權的存取行為。

連結叢集的屬性

本節說明 Connect 叢集的屬性。

Connect 叢集名稱

您要建立的 Connect 叢集名稱。如要查看 Connect 叢集的命名準則，請參閱「Managed Service for Apache Kafka 資源命名指南」。叢集名稱無法變更。

主要 Kafka 叢集

與 Connect 叢集相關聯的 Managed Service for Apache Kafka 叢集。這個相關聯的叢集 (主要叢集) 會儲存 Connect 叢集上執行的連接器狀態。一般而言，主要 Managed Service for Apache Kafka 叢集也是所有來源連接器的目的地，以及在 Connect 叢集上執行的所有接收器連接器的輸入內容。

單一 Managed Service for Apache Kafka 叢集可以有多個 Connect 叢集。如果您選擇不同專案中的 Managed Service for Apache Kafka 叢集，請確保已設定適當的權限。

建立 Connect 叢集後，就無法更新為其他 Kafka 叢集。

地區主機代管服務的延遲時間和網路費用優勢

在同一個區域中，將 Managed Service for Apache Kafka 和 Connect 叢集放在一起，可減少延遲和網路費用。舉例來說，假設您的 Managed Service for Apache Kafka 叢集位於 region-a，且您使用接收器連接器將資料從這個 Managed Service for Apache Kafka 叢集 (來源) 寫入同樣位於 region-a 的 BigQuery 資料表 (接收器)。如果您在 region-a 中部署 Connect 叢集，這個部署選項可將 BigQuery 寫入作業的延遲時間降至最低，並免除 Managed Service for Apache Kafka 叢集與 Connect 叢集之間的跨區域網路傳輸費用。

多系統延遲和成本考量

Kafka Connect 會使用連接器在系統之間移動資料。連接器的一端一律會與 Managed Service for Apache Kafka 叢集互動。單一 Kafka Connect 叢集可以執行多個連接器，每個連接器可做為「來源」 (從系統提取資料) 或「接收器」 (將資料推送至系統)。

雖然與 Managed Service for Apache Kafka 叢集位於同一區域的 Connect 叢集，可享有兩者之間較低的通訊延遲，但每個連接器也會與其他系統互動，例如 BigQuery 表格或其他 Kafka 叢集。即使 Connect 叢集和 Managed Service for Apache Kafka 叢集位於同一位置，該其他系統也可能位於不同區域。這會導致延遲時間和成本增加。整體管道延遲時間取決於三個系統的位置：Managed Service for Apache Kafka 叢集、Connect 叢集，以及來源或接收器系統。

舉例來說，如果您的 Managed Service for Apache Kafka 叢集位於 region-a，Connect 叢集位於 region-b，且您使用 Cloud Storage 連接器存取 region-c 中的 bucket，系統會針對兩個網路躍點向您收費 (region-a 到 region-b，然後 region-b 到 region-c，或反向，視連接器方向而定)。

規劃 Connect 叢集放置位置時，請仔細考量所有相關區域，盡量減少延遲時間和成本。

容量設定

請在「運算資源設定」專區，提供 Connect 叢集每個 vCPU 的 vCPU 數量和記憶體容量。建立 Connect 叢集後，您可以更新叢集容量。以下是容量設定的屬性：

vCPU：指派給 Connect 叢集的 vCPU 數量。最小值為 3 個 vCPU。
記憶體：為每個 vCPU 指派的記憶體容量。每個 vCPU 必須佈建 1 GiB 至 8 GiB 的記憶體。叢集建立後，您可以在這些限制內增加或減少記憶體容量。

舉例來說，如果您建立的叢集有 6 個 vCPU，則可分配給叢集的記憶體容量下限為 6 GiB (每個 vCPU 1 GiB)，上限為 48 GiB (每個 vCPU 8 GiB)。

分配給 Connect 叢集中每個工作站的 vCPU 和記憶體，對叢集的效能、容量和成本有顯著影響。以下是 vCPU 和記憶體對 Connect 叢集的影響。

vCPU 數量

Kafka Connect 會將連接器的工作劃分為多項工作。每項工作都能平行處理資料。vCPU 越多，可同時執行的工作就越多，總處理量也會隨之提高。
增加 vCPU 會提高 Connect 叢集的費用。

記憶體

Kafka Connect 會使用記憶體緩衝處理連接器和 Managed Service for Apache Kafka 之間流動的資料。記憶體越大，緩衝區就越大。記憶體容量越大，總處理量就越高，尤其是處理大量資料串流時。處理大型訊息或記錄的連接器需要足夠的記憶體，才能處理這些項目，不會發生 OutOfMemoryError 例外狀況。
記憶體越多，Connect 叢集的費用就越高。
如果您使用大量轉換邏輯，則需要更多記憶體分配。

您的目標是為 Connect 叢集選擇合適的容量設定。如要執行這項操作，您必須瞭解 Connect 叢集可處理的輸送量。

工作站 (主要) 子網路

工作子網路 (也稱為主要子網路) 可將虛擬私有雲網路連線至 Connect 叢集。這個子網路可讓叢集工作站連上消費者網路中來源和接收器的端點，例如 Managed Service for Apache Kafka 叢集或自行代管的 Kafka 叢集。

設定工作站子網路時，請注意下列事項：

必須提供工作站子網路。
子網路必須與 Connect 叢集位於相同區域。
子網路必須與主要 Kafka 叢集的已連線子網路清單中，其中一個子網路位於相同的父項 VPC。
子網路 CIDR 範圍的大小不得小於 /22 (1024 個位址)。

叢集工作站會使用 Private Service Connect 介面，在工作站子網路中指派 IP 位址。只要符合下列條件，工作站就能連線至子網路虛擬私有雲網路可存取的任何網路目的地：

端點不得位於 172.16.0.0/14 CIDR 範圍內。這個範圍保留供 Managed Service for Apache Kafka Connect 內部使用。
防火牆規則必須允許流量。請參閱「設定網路連結的安全防護機制」。
如要處理網際網路流量，您必須設定 Cloud NAT。舉例來說，如果 Kafka 叢集可透過網際網路存取，您必須設定 Cloud NAT，MirrorMaker 連接器才能複製該叢集的資料。
如要存取與工作站子網路虛擬私有雲不同的虛擬私有雲中的 Private Service Connect 端點，請務必使用支援的消費者設定 (例如 NCC)。詳情請參閱「透過端點存取已發布的服務」。

可解析的 DNS 網域

可解析的 DNS 網域 (也稱為 DNS 網域名稱) 可讓租戶 VPC 使用用戶 VPC 網路中的 DNS 位址。這項設定可讓 Connect 叢集將 DNS 名稱解析為 IP 位址，方便與其他服務通訊，包括 MirrorMaker 連接器的其他 Kafka 叢集。

對於可解析的 DNS 網域，您可以選取 Managed Service for Apache Kafka 叢集。您不需要為主要 Managed Service for Apache Kafka 叢集設定 DNS 網域名稱，因為啟動程序位址會自動納入可解析的 DNS 網域清單。

不過，您也可以手動指定 DNS 網域，如果選取外部 Kafka 叢集，就必須這麼做。系統會自動納入主要 Managed Service for Apache Kafka 叢集的 DNS 網域。其他 Kafka 叢集仍須設定 DNS 網域。

Secret Manager 資源

指定要載入工作站的 Secret Manager。這些密鑰會安全地儲存在 Secret Manager 中，並提供給 Connect 叢集使用。

您也可以在連接器設定中使用 Secret Manager。舉例來說，您可以將金鑰檔案載入 Connect 叢集，並讓連接器讀取該檔案。Secret Manager 會以檔案形式掛接至工作人員。

Connect 叢集會直接與 Secret Manager 整合。您必須使用 Secret Manager 儲存及管理密鑰。

指定密鑰的格式為：projects/{PROJECT_ID}/secrets/{SECRET_NAME}/versions/{VERSION_ID}

PROJECT_ID：Secret Manager Secret 所在的專案 ID。
SECRET_NAME：Secret Manager 中的 Secret 名稱。
VERSION_ID：Secret 的特定版本號碼。例如「1」、「2」、「3」。

單一 Connect 叢集最多可載入 32 個密鑰。

請確認執行 Connect 工作人員的服務代理程式，在您要使用的密鑰上具有 secretmanager.secretAccessor 角色 (Secret Manager 密鑰存取者)。這個角色可讓 Connect 叢集從 Secret Manager 擷取密鑰值。