E/S gérées Dataflow pour Apache Kafka

Les E/S gérées permettent de lire et d'écrire dans Apache Kafka.

Conditions requises

Les SDK suivants sont compatibles avec les E/S gérées pour Apache Kafka :

  • SDK Apache Beam pour Java version 2.58.0 ou ultérieure
  • SDK Apache Beam pour Python version 2.61.0 ou ultérieure

Configuration

Les E/S gérées pour BigQuery sont compatibles avec les paramètres de configuration suivants :

KAFKA Lire

Configuration Type Description
bootstrap_servers str Liste des paires hôte/port à utiliser pour établir la connexion initiale au cluster Kafka. Le client utilisera tous les serveurs, quels qu'ils soient, pour l'amorçage. Cette liste n'a d'incidence que sur les hôtes initiaux utilisés pour découvrir l'ensemble des serveurs. Cette liste doit être au format `host1:port1,host2:port2,...`
topic str n/a
allow_duplicates boolean Si la lecture Kafka autorise les doublons.
confluent_schema_registry_subject str n/a
confluent_schema_registry_url str n/a
consumer_config_updates map[str, str] Liste de paires clé/valeur servant de paramètres de configuration pour les consommateurs Kafka. La plupart de ces configurations ne seront pas nécessaires, mais vous pouvez les utiliser si vous devez personnaliser votre consommateur Kafka. Pour obtenir la liste détaillée, consultez https://docs.confluent.io/platform/current/installation/configuration/consumer-configs.html.
file_descriptor_path str Chemin d'accès au fichier de l'ensemble de descripteurs de fichier du tampon de protocole. Ce fichier est utilisé pour la définition du schéma et la sérialisation des messages.
format str Format d'encodage des données stockées dans Kafka. Les options valides sont les suivantes : RAW,STRING,AVRO,JSON,PROTO.
message_name str Nom du message Protocol Buffer à utiliser pour l'extraction du schéma et la conversion des données.
offset_deduplication boolean Si la redistribution utilise le mode de déduplication des décalages.
redistribute_by_record_key boolean Si les clés de redistribution sont la clé d'enregistrement Kafka.
redistribute_num_keys int32 Nombre de clés pour redistribuer les entrées Kafka.
redistribué boolean Indique si la lecture Kafka doit être redistribuée.
schema str Schéma dans lequel les données sont encodées dans le sujet Kafka. Pour les données AVRO, il s'agit d'un schéma défini avec la syntaxe de schéma AVRO (https://avro.apache.org/docs/1.10.2/spec.html#schemas). Pour les données JSON, il s'agit d'un schéma défini avec la syntaxe JSON-schema (https://json-schema.org/). Si une URL vers Confluent Schema Registry est fournie, ce champ est ignoré et le schéma est récupéré à partir de Confluent Schema Registry.

KAFKA Écriture

Configuration Type Description
bootstrap_servers str Liste des paires hôte/port à utiliser pour établir la connexion initiale au cluster Kafka. Le client utilisera tous les serveurs, quels qu'ils soient, pour l'amorçage. Cette liste n'a d'incidence que sur les hôtes initiaux utilisés pour découvrir l'ensemble des serveurs. | Format : host1:port1,host2:port2,...
mettre en forme str Format d'encodage des données stockées dans Kafka. Les options valides sont : RAW, JSON, AVRO et PROTO.
topic str n/a
file_descriptor_path str Chemin d'accès au fichier de l'ensemble de descripteurs de fichier du tampon de protocole. Ce fichier est utilisé pour la définition du schéma et la sérialisation des messages.
message_name str Nom du message Protocol Buffer à utiliser pour l'extraction du schéma et la conversion des données.
producer_config_updates map[str, str] Liste de paires clé-valeur qui servent de paramètres de configuration pour les producteurs Kafka. La plupart de ces configurations ne seront pas nécessaires, mais vous pouvez les utiliser si vous devez personnaliser votre producteur Kafka. Consultez la liste détaillée : https://docs.confluent.io/platform/current/installation/configuration/producer-configs.html
schema str n/a

Étapes suivantes

Pour en savoir plus et obtenir des exemples de code, consultez les sujets suivants :