Connect クラスタを作成する

Connect クラスタは、既存の Kafka デプロイから Google Cloud Managed Service for Apache Kafka クラスタにデータを移動したり、Managed Service for Apache Kafka クラスタから別の Google Cloud サービスまたは別の Kafka クラスタにデータを移動したりするコネクタの環境を提供します。セカンダリ Kafka クラスタは、別の Google Cloud Managed Service for Apache Kafka クラスタ、セルフマネージドクラスタ、オンプレミスクラスタにできます。

始める前に

Managed Service for Apache Kafka クラスタがすでに作成されていることを確認します。Connect クラスタを接続する Managed Service for Apache Kafka クラスタの名前が必要です。

各 Connect クラスタは、Managed Service for Apache Kafka クラスタに関連付けられています。このクラスタには、Connect クラスタで実行されているコネクタの状態が保存されます。

Connect クラスタの作成に必要なロールと権限

Connect クラスタの作成に必要な権限を取得するには、プロジェクトに対する Managed Kafka Connect クラスタ編集者（roles/managedkafka.connectClusterEditor）IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

この事前定義ロールには、Connect クラスタの作成に必要な権限が含まれています。必要とされる正確な権限については、「必要な権限」セクションを開いてご確認ください。

必要な権限

Connect クラスタを作成するには、次の権限が必要です。

指定されたロケーションで Connect クラスタを作成する権限を付与します。 managedkafka.connectClusters.create

カスタムロールや他の事前定義ロールを使用して、これらの権限を取得することもできます。

このロールの詳細については、Managed Service for Apache Kafka の事前定義ロールをご覧ください。

必要な ACL プリンシパル

デフォルトでは、ACL が構成されていない場合、Managed Service for Apache Kafka クラスタは Connect クラスタにリソースへのアクセスを許可します。これを行うには、デフォルト設定である allow.everyone.if.no.acl.found を true に設定します。

ただし、Managed Service for Apache Kafka クラスタに ACL が構成されている場合、Connect クラスタにはリソースに対する読み取り権限と書き込み権限が自動的に付与されません。これらは手動で付与する必要があります。

ACL でプリンシパルとして使用される Connect クラスタサービスアカウントは、User:service-{consumer project number}@gcp-sa-managedkafka.iam.gserviceaccount.com の形式です。

Kafka クラスタで ACL を構成している場合は、次のコマンドを使用して、Connect クラスタにトピックの読み取りと書き込み権限、コンシューマーグループの読み取り権限を付与します。

/bin/kafka-acls.sh \
    --bootstrap-server BOOTSTRAP_ADDR \
    --command-config PATH_TO_CLIENT_PROPERTIES \
    --add \
    --allow-principal User:service-{consumer project number}@gcp-sa-managedkafka.iam.gserviceaccount.com \
    --operation READ --operation WRITE --topic *

/bin/kafka-acls.sh \
    --bootstrap-server BOOTSTRAP_ADDR \
    --command-config PATH_TO_CLIENT_PROPERTIES \
    --add \
    --allow-principal User:service-{consumer project number}@gcp-sa-managedkafka.iam.gserviceaccount.com \
    --operation READ --group *

これらのコマンドの詳細については、きめ細かいアクセス制御用に Apache Kafka ACL を構成するをご覧ください。

別のプロジェクトに Connect クラスタを作成する

Connect クラスタを作成すると、同じプロジェクト内の Managed Service for Apache Kafka クラスタと同じサービスエージェントを共有します。この Managed Service for Apache Kafka クラスタが Connect クラスタに接続されたプライマリ Kafka クラスタとして指定されている場合、追加の権限は必要ありません。

サービスエージェントの形式は service-<project_number>@gcp-sa-managedkafka.iam.gserviceaccount.com です。プロジェクト番号は、Connect クラスタと Managed Service for Apache Kafka クラスタを含むプロジェクトのものです。

Connect クラスタがプロジェクト A にあり、関連付けられている Managed Service for Apache Kafka クラスタがプロジェクト B にある場合は、次の操作を行います。

プロジェクト A とプロジェクト B の両方で Managed Kafka API が有効になっていることを確認します。

API を有効化
プロジェクト A の Connect クラスタのサービスエージェントを特定します。

サービスエージェントの形式は service-<project_number>@gcp-sa-managedkafka.iam.gserviceaccount.com です。
プロジェクト B で、Connect クラスタのサービスアカウントに Managed Kafka クライアントロール（roles/managedkafka.client）を付与します。

このロールは、Managed Service for Apache Kafka クラスタに接続し、データの読み取りや書き込みなどのオペレーションを実行するために必要な権限を付与します。

ロールを付与する方法については、ロールを作成してサービスエージェントに付与するをご覧ください。

権限を付与する際は、常に最小権限の原則に従ってください。セキュリティを確保し、不正アクセスを防ぐために、必要な権限のみを付与します。

Connect クラスタのプロパティ

このセクションでは、Connect クラスタのプロパティについて説明します。

Connect クラスタ名

作成する Connect クラスタの名前。Connect クラスタの命名方法のガイドラインについては、Managed Service for Apache Kafka リソースの命名ガイドラインをご覧ください。クラスタの名前は不変です。

プライマリ Kafka クラスタ

Connect クラスタに関連付けられている Managed Service for Apache Kafka クラスタ。この関連付けられたクラスタ（プライマリクラスタ）には、Connect クラスタで実行されているコネクタの状態が保存されます。通常、プライマリ Managed Service for Apache Kafka クラスタは、Connect クラスタで実行されているすべてのソースコネクタの宛先と、すべてのシンクコネクタの入力としても機能します。

1 つの Managed Service for Apache Kafka クラスタに複数の Connect クラスタを設定できます。別のプロジェクトで Managed Service for Apache Kafka クラスタを選択する場合は、適切な権限が構成されていることを確認してください。

Connect クラスタを作成した後に、別の Kafka クラスタに更新することはできません。

レイテンシとネットワークコストに関するリージョンコロケーションのメリット

Managed Service for Apache Kafka クラスタと Connect クラスタを同じリージョンに配置すると、レイテンシとネットワークコストを削減できます。たとえば、Managed Service for Apache Kafka クラスタが region-a にあり、シンクコネクタを使用して、この Managed Service for Apache Kafka クラスタ（ソース）から region-a にもある BigQuery テーブル（シンク）にデータを書き込むとします。Connect クラスタを region-a にデプロイする場合、このデプロイオプションにより、BigQuery 書き込みオペレーションのレイテンシが最小限に抑えられ、Managed Service for Apache Kafka クラスタと Connect クラスタ間のリージョン間ネットワーク転送費用がなくなります。

マルチシステムレイテンシと費用の考慮事項

Kafka Connect はコネクタを使用してシステム間でデータを移動します。コネクタの一方の側は常に Managed Service for Apache Kafka クラスタとやり取りします。1 つの Kafka Connect クラスタで複数のコネクタを実行できます。各コネクタは、ソース（システムからデータを取得する）またはシンク（システムにデータをプッシュする）として機能します。

Managed Service for Apache Kafka クラスタと同じリージョンにある Connect クラスタは、クラスタ間の通信レイテンシが低くなるというメリットがありますが、各コネクタは BigQuery テーブルや別の Kafka クラスタなどの別のシステムともやり取りします。Connect クラスタと Managed Service for Apache Kafka クラスタが同じ場所に配置されている場合でも、その別のシステムは別のリージョンに存在する可能性があります。これにより、レイテンシと費用が増加します。パイプライン全体のレイテンシは、Managed Service for Apache Kafka クラスタ、Connect クラスタ、ソースまたはシンクシステムの 3 つのシステムのロケーションによって異なります。

たとえば、Managed Service for Apache Kafka クラスタが region-a にあり、Connect クラスタが region-b にあり、region-c のバケットに Cloud Storage コネクタを使用している場合、2 つのネットワークホップ（region-a から region-b、region-b から region-c。コネクタの方向によっては逆方向）に対して課金されます。

レイテンシと費用の両方を最適化するために、Connect クラスタの配置を計画する際は、関連するすべてのリージョンを慎重に検討してください。

容量構成

容量構成では、Connect クラスタの各 vCPU の vCPU 数とメモリ量を構成する必要があります。Connect クラスタの容量は、作成後に更新できます。容量構成のプロパティは次のとおりです。

vCPU: Connect クラスタに割り当てられた vCPU の数。最小値は 3 vCPU です。
メモリ: 各 vCPU に割り当てられるメモリ容量。vCPU あたり 1 GiB ～ 8 GiB の範囲でプロビジョニングする必要があります。クラスタの作成後に、これらの上限内でメモリ量を増減できます。

たとえば、6 個の vCPU を使用してクラスタを作成する場合、クラスタに割り当てることができる最小メモリは 6 GiB（vCPU あたり 1 GiB）で、最大メモリは 48 GiB（vCPU あたり 8 GiB）です。

Connect クラスタ内の各ワーカーに割り当てられる vCPU とメモリは、クラスタのパフォーマンス、容量、費用に大きな影響を与えます。vCPU とメモリが Connect クラスタに与える影響の内訳は次のとおりです。

vCPU 数

Kafka Connect は、コネクタの作業をタスクに分割します。各タスクはデータを並行して処理できます。vCPU が多いほど、同時に実行できるタスクが増え、スループットが向上します。
vCPU を増やすと、Connect クラスタの費用が増加します。

メモリ

Kafka Connect は、コネクタと Managed Service for Apache Kafka の間でデータが流れるときに、データをバッファリングするためにメモリを使用します。メモリが大きいほど、バッファを大きくできます。大容量のメモリを使用すると、特に大量のデータストリームの場合に、スループットを向上させることができます。非常に大きなメッセージやレコードを処理するコネクタには、OutOfMemoryError 例外が発生することなく処理できる十分なメモリが必要です。
メモリを増やすと、Connect クラスタの費用が増加します。
変換ロジックを多用している場合は、より多くのメモリ割り当てが必要です。

目標は、Connect クラスタに適した容量構成を選択することです。そのためには、Connect クラスタが処理できるスループットを把握する必要があります。

ワーカー（プライマリ）サブネット

ワーカーサブネット（プライマリサブネットとも呼ばれます）は、VPC ネットワークを Connect クラスタに接続します。このサブネットにより、クラスタワーカーは、コンシューマーネットワーク内のソースとシンクのエンドポイント（Managed Service for Apache Kafka クラスタやセルフホスト Kafka クラスタなど）にアクセスできます。

ワーカーサブネットを構成するための要件は次のとおりです。

ワーカーサブネットは必須です。
サブネットは Connect クラスタと同じリージョンに配置する必要があります。
サブネットは、プライマリ Kafka クラスタの接続されたサブネットのリストのいずれかと同じ親 VPC に存在する必要があります。
サブネットの CIDR 範囲の最小サイズは /22（1,024 個のアドレス）にする必要があります。

クラスタワーカーには、Private Service Connect インターフェースを使用して、ワーカーサブネット内の IP アドレスが割り当てられます。ワーカーは、サブネットの VPC ネットワークからアクセス可能な任意のネットワーク宛先にアクセスできます。ただし、次の要件があります。

エンドポイントは 172.16.0.0/14 CIDR 範囲内に存在してはなりません。この範囲は、Managed Service for Apache Kafka Connect の内部使用のために予約されています。
ファイアウォールルールでトラフィックを許可する必要があります。ネットワークアタッチメントのセキュリティを構成するをご覧ください。
インターネットトラフィックの場合は、Cloud NAT を構成する必要があります。たとえば、インターネット経由でアクセス可能な Kafka クラスタからデータを複製するには、MirrorMaker コネクタに Cloud NAT が必要です。
ワーカーサブネット VPC とは異なる VPC にある Private Service Connect エンドポイントにアクセスするには、サポートされているコンシューマー構成（NCC など）を使用していることを確認する必要があります。詳細については、エンドポイントを介した公開サービスへのアクセスについてをご覧ください。

解決可能な DNS ドメイン

DNS ドメイン名とも呼ばれる解決可能な DNS ドメインを使用すると、コンシューマー VPC ネットワークの DNS アドレスをテナント VPC で使用できるようになります。これにより、Connect クラスタは DNS 名を IP アドレスに解決し、MirrorMaker コネクタの他の Kafka クラスタなど、他のサービスとの通信を容易にできます。

解決可能な DNS ドメインの場合は、Managed Service for Apache Kafka クラスタを選択できます。プライマリ Managed Service for Apache Kafka クラスタの DNS ドメイン名を構成する必要はありません。ブートストラップアドレスは、解決可能な DNS ドメインのリストに自動的に含まれます。

ただし、DNS ドメインを手動で指定することもできます。これは、外部 Kafka クラスタを選択する場合に必要です。プライマリ Managed Service for Apache Kafka クラスタの DNS ドメインは自動的に含まれます。他の Kafka クラスタでは、DNS ドメインの構成が引き続き必要です。

Secret Manager のリソース

ワーカーに読み込む Secret Manager を指定します。これらのシークレットは Secret Manager に安全に保存され、Connect クラスタで使用できるようになります。

必要に応じて、コネクタ構成で Secret Manager を使用できます。たとえば、鍵ファイルを Connect クラスタに読み込み、コネクタにファイルを読み取らせることができます。Secret Manager はワーカーのファイルとしてマウントされます。

接続クラスタは Secret Manager と直接統合されます。Secret Manager を使用してシークレットを保存し、管理する必要があります。

シークレットを指定する形式は projects/{PROJECT_ID}/secrets/{SECRET_NAME}/versions/{VERSION_ID} です。

PROJECT_ID: Secret Manager シークレットが存在するプロジェクトの ID。
SECRET_NAME: Secret Manager 内のシークレットの名前。
VERSION_ID: シークレットの特定のバージョン番号。「1」、「2」、「3」などの数字。

1 つの Connect クラスタに最大 32 個のシークレットを読み込むことができます。

Connect ワーカーを実行するサービスエージェントに、使用するシークレットに対する secretmanager.secretAccessor ロール（Secret Manager シークレットアクセサー）があることを確認します。このロールにより、Connect クラスタは Secret Manager からシークレット値を取得できます。

ラベル

ラベルは、整理と識別に役立つ Key-Value ペアです。Connect クラスタの整理に役立ちます。各 Connect クラスタにラベルをアタッチし、そのラベルに基づいてリソースをフィルタできます。ラベルの例: environment:prod、application:web-app。