אתם יכולים להתאים אישית את סביבת זמן הריצה של קוד המשתמש בצינורות Dataflow באמצעות קובץ אימג' מותאם אישית של קונטיינר. קונטיינרים מותאמים אישית נתמכים בצינורות עיבוד נתונים שמשתמשים ב-Runner v2 של Dataflow.
כשמפעילים מכונות וירטואליות של עובדים ב-Dataflow, המערכת משתמשת בקובצי אימג' של קונטיינרים של Docker כדי להפעיל תהליכי SDK בקונטיינרים בעובדים. כברירת מחדל, צינורות משתמשים בתמונה מוכנה מראש של Apache Beam. עם זאת, אתם יכולים לספק קובץ אימג' מותאם אישית של קונטיינר לעבודת Dataflow. כשמציינים קובץ אימג' של קונטיינר בהתאמה אישית, מערכת Dataflow מפעילה עובדים ששולפים את הקובץ אימג' שצוין.
יכול להיות שתשתמשו במאגר מותאם אישית מהסיבות הבאות:
- כדי לקצר את זמן ההפעלה של העובד, כדאי להתקין מראש את התלות של צינורות הנתונים.
- התקנה מראש של יחסי תלות בצינורות שלא זמינים במאגרים ציבוריים.
- התקנה מראש של יחסי תלות בצינורות כשגישה למאגרים ציבוריים מושבתת. יכול להיות שהגישה מושבתת מטעמי אבטחה.
- כדאי להכין מראש קבצים גדולים כדי לקצר את זמן ההפעלה של העובד.
- הפעלת תוכנת צד שלישי ברקע.
- התאמה אישית של סביבת ההפעלה.
מידע נוסף על מאגרי תגים בהתאמה אישית ב-Apache Beam זמין במדריך למאגרי תגים בהתאמה אישית ב-Apache Beam. דוגמאות לצינורות עיבוד נתונים של Python שמשתמשים בקונטיינרים מותאמים אישית מופיעות במאמר קונטיינרים מותאמים אישית ב-Dataflow.
השלבים הבאים
- פיתוח קובצי אימג' של קונטיינרים בהתאמה אישית
- פיתוח קובצי אימג' של קונטיינרים עם כמה ארכיטקטורות
- הפעלת משימת Dataflow במאגר מותאם אישית
- פתרון בעיות במאגרי תגים בהתאמה אישית