קלט/פלט מנוהל של Dataflow ל-Apache Kafka

Managed I/O תומך בקריאה וכתיבה ב-Apache Kafka.

דרישות

ערכות ה-SDK הבאות תומכות בקלט/פלט מנוהל ל-Apache Kafka:

  • ‫Apache Beam SDK ל-Java בגרסה 2.58.0 ואילך
  • ‫Apache Beam SDK for Python בגרסה 2.61.0 ואילך

הגדרות אישיות

התכונה 'ניהול קלט/פלט' ב-BigQuery תומכת בפרמטרים הבאים של הגדרות:

KAFKA קריאה

הגדרות אישיות סוג תיאור
bootstrap_servers str רשימה של זוגות מארח/יציאה לשימוש בהקמת החיבור הראשוני לאשכול Kafka. הלקוח ישתמש בכל השרתים, ללא קשר לשרתים שצוינו כאן לאתחול – הרשימה הזו משפיעה רק על המארחים הראשוניים שמשמשים לגילוי של כל השרתים. הרשימה צריכה להיות בפורמט `host1:port1,host2:port2,...`
נושא str לא רלוונטי
allow_duplicates boolean אם קריאת Kafka מאפשרת כפילויות.
confluent_schema_registry_subject str לא רלוונטי
confluent_schema_registry_url str לא רלוונטי
consumer_config_updates map[str, str] רשימה של צמדי מפתח/ערך שמשמשים כפרמטרים של הגדרות לצרכני Kafka. רוב ההגדרות האלה לא יהיו נחוצות, אבל אם תצטרכו להתאים אישית את צרכן Kafka, תוכלו להשתמש בהן. רשימה מפורטת: https://docs.confluent.io/platform/current/installation/configuration/consumer-configs.html
file_descriptor_path str הנתיב לקובץ Protocol Buffer File Descriptor Set. הקובץ הזה משמש להגדרת סכימה ולסריאליזציה של הודעות.
פורמט str פורמט הקידוד של הנתונים שמאוחסנים ב-Kafka. האפשרויות התקינות הן: RAW,‏ STRING,‏ AVRO,‏ JSON,‏ PROTO
message_name str השם של הודעת Protocol Buffer שתשמש לחילוץ סכימה ולהמרת נתונים.
offset_deduplication boolean אם ההפצה מחדש מתבצעת באמצעות מצב ביטול כפילויות עם היסט.
redistribute_by_record_key boolean אם המפתחות מופצים מחדש לפי מפתח הרשומה של Kafka.
redistribute_num_keys int32 מספר המפתחות להפצה מחדש של נתוני קלט של Kafka.
הופץ מחדש boolean אם צריך לבצע חלוקה מחדש של קריאת Kafka.
סכימה str הסכימה שבה הנתונים מקודדים בנושא Kafka. לנתונים בפורמט AVRO, זוהי סכימה שמוגדרת באמצעות תחביר של סכימת AVRO ‏ (https://avro.apache.org/docs/1.10.2/spec.html#schemas). בנתוני JSON, זוהי סכימה שמוגדרת באמצעות תחביר של JSON-schema ‏ (https://json-schema.org/). אם מספקים כתובת URL ל-Confluent Schema Registry, המערכת מתעלמת מהשדה הזה ומביאה את הסכימה מ-Confluent Schema Registry.

KAFKA כתיבה

הגדרות אישיות סוג תיאור
bootstrap_servers str רשימה של זוגות מארח/יציאה לשימוש בהקמת החיבור הראשוני לאשכול Kafka. הלקוח ישתמש בכל השרתים, ללא קשר לשרתים שצוינו כאן לאתחול – הרשימה הזו משפיעה רק על המארחים הראשוניים שמשמשים לגילוי של כל השרתים. ‫| פורמט: host1:port1,host2:port2,...
פורמט str פורמט הקידוד של הנתונים שמאוחסנים ב-Kafka. האפשרויות התקפות הן: RAW,‏ JSON,‏ AVRO,‏ PROTO
נושא str לא רלוונטי
file_descriptor_path str הנתיב לקובץ Protocol Buffer File Descriptor Set. הקובץ הזה משמש להגדרת סכימה ולסריאליזציה של הודעות.
message_name str השם של הודעת Protocol Buffer שתשמש לחילוץ סכימה ולהמרת נתונים.
producer_config_updates map[str, str] רשימה של צמדי מפתח-ערך שמשמשים כפרמטרים של הגדרות עבור Kafka producers. רוב ההגדרות האלה לא יהיו נחוצות, אבל אם תצטרכו להתאים אישית את Kafka producer, תוכלו להשתמש בהן. רשימה מפורטת זמינה בכתובת: https://docs.confluent.io/platform/current/installation/configuration/producer-configs.html
סכימה str לא רלוונטי

המאמרים הבאים

מידע נוסף ודוגמאות קוד זמינים בנושאים הבאים: