I/O terkelola Dataflow untuk Apache Kafka

Managed I/O mendukung pembacaan dan penulisan ke Apache Kafka.

Persyaratan

SDK berikut mendukung I/O terkelola untuk Apache Kafka:

  • Apache Beam SDK untuk Java versi 2.58.0 atau yang lebih baru
  • Apache Beam SDK untuk Python versi 2.61.0 atau yang lebih baru

Konfigurasi

I/O Terkelola untuk BigQuery mendukung parameter konfigurasi berikut:

KAFKA Baca

Konfigurasi Jenis Deskripsi
bootstrap_servers str Daftar pasangan host/port yang akan digunakan untuk membuat koneksi awal ke cluster Kafka. Klien akan menggunakan semua server, terlepas dari server mana yang ditentukan di sini untuk bootstrapping. Daftar ini hanya memengaruhi host awal yang digunakan untuk menemukan kumpulan server lengkap. Daftar ini harus dalam format `host1:port1,host2:port2,...`
topik str t/a
allow_duplicates boolean Jika pembacaan Kafka mengizinkan duplikat.
confluent_schema_registry_subject str t/a
confluent_schema_registry_url str t/a
consumer_config_updates map[str, str] Daftar key-value pair yang berfungsi sebagai parameter konfigurasi untuk konsumen Kafka. Sebagian besar konfigurasi ini tidak akan diperlukan, tetapi jika Anda perlu menyesuaikan konsumen Kafka, Anda dapat menggunakannya. Lihat daftar mendetail: https://docs.confluent.io/platform/current/installation/configuration/consumer-configs.html
file_descriptor_path str Jalur ke file Set Deskriptor File Buffer Protokol. File ini digunakan untuk definisi skema dan serialisasi pesan.
format str Format encoding untuk data yang disimpan di Kafka. Opsi yang valid adalah: RAW,STRING,AVRO,JSON,PROTO
message_name str Nama pesan Protocol Buffer yang akan digunakan untuk ekstraksi skema dan konversi data.
offset_deduplication boolean Jika pendistribusian ulang menggunakan mode penghapusan duplikat offset.
redistribute_by_record_key boolean Jika mendistribusikan ulang kunci berdasarkan kunci rekaman Kafka.
redistribute_num_keys int32 Jumlah kunci untuk mendistribusikan ulang input Kafka.
didistribusikan ulang boolean Jika pembacaan Kafka harus didistribusikan ulang.
schema str Skema tempat data dienkode dalam topik Kafka. Untuk data AVRO, ini adalah skema yang ditentukan dengan sintaksis skema AVRO (https://avro.apache.org/docs/1.10.2/spec.html#schemas). Untuk data JSON, ini adalah skema yang ditentukan dengan sintaksis JSON-schema (https://json-schema.org/). Jika URL ke Confluent Schema Registry disediakan, kolom ini akan diabaikan, dan skema akan diambil dari Confluent Schema Registry.

KAFKA Menulis

Konfigurasi Jenis Deskripsi
bootstrap_servers str Daftar pasangan host/port yang akan digunakan untuk membuat koneksi awal ke cluster Kafka. Klien akan menggunakan semua server, terlepas dari server mana yang ditentukan di sini untuk bootstrapping. Daftar ini hanya memengaruhi host awal yang digunakan untuk menemukan kumpulan server lengkap. | Format: host1:port1,host2:port2,...
format str Format encoding untuk data yang disimpan di Kafka. Opsi yang valid adalah: RAW,JSON,AVRO,PROTO
topik str t/a
file_descriptor_path str Jalur ke file Set Deskriptor File Buffer Protokol. File ini digunakan untuk definisi skema dan serialisasi pesan.
message_name str Nama pesan Protocol Buffer yang akan digunakan untuk ekstraksi skema dan konversi data.
producer_config_updates map[str, str] Daftar key-value pair yang berfungsi sebagai parameter konfigurasi untuk produser Kafka. Sebagian besar konfigurasi ini tidak akan diperlukan, tetapi jika Anda perlu menyesuaikan produser Kafka, Anda dapat menggunakannya. Lihat daftar mendetail: https://docs.confluent.io/platform/current/installation/configuration/producer-configs.html
schema str t/a

Langkah berikutnya

Untuk informasi dan contoh kode selengkapnya, lihat topik berikut: