שימוש בקונטיינרים מותאמים אישית ב-Dataflow

אתם יכולים להתאים אישית את סביבת זמן הריצה של קוד המשתמש בצינורות Dataflow באמצעות קובץ אימג' מותאם אישית של קונטיינר. קונטיינרים מותאמים אישית נתמכים בצינורות עיבוד נתונים שמשתמשים ב-Runner v2 של Dataflow.

כשמפעילים מכונות וירטואליות של עובדים ב-Dataflow, המערכת משתמשת בקובצי אימג' של קונטיינרים של Docker כדי להפעיל תהליכי SDK בקונטיינרים בעובדים. כברירת מחדל, צינורות משתמשים בתמונה מוכנה מראש של Apache Beam. עם זאת, אתם יכולים לספק קובץ אימג' מותאם אישית של קונטיינר לעבודת Dataflow. כשמציינים קובץ אימג' של קונטיינר בהתאמה אישית, מערכת Dataflow מפעילה עובדים ששולפים את הקובץ אימג' שצוין.

יכול להיות שתשתמשו במאגר מותאם אישית מהסיבות הבאות:

  • כדי לקצר את זמן ההפעלה של העובד, כדאי להתקין מראש את התלות של צינורות הנתונים.
  • התקנה מראש של יחסי תלות בצינורות שלא זמינים במאגרים ציבוריים.
  • התקנה מראש של יחסי תלות בצינורות כשגישה למאגרים ציבוריים מושבתת. יכול להיות שהגישה מושבתת מטעמי אבטחה.
  • כדאי להכין מראש קבצים גדולים כדי לקצר את זמן ההפעלה של העובד.
  • הפעלת תוכנת צד שלישי ברקע.
  • התאמה אישית של סביבת ההפעלה.

מידע נוסף על מאגרי תגים בהתאמה אישית ב-Apache Beam זמין במדריך למאגרי תגים בהתאמה אישית ב-Apache Beam. דוגמאות לצינורות עיבוד נתונים של Python שמשתמשים בקונטיינרים מותאמים אישית מופיעות במאמר קונטיינרים מותאמים אישית ב-Dataflow.

השלבים הבאים