פיתוח צינורות עיבוד נתונים של Dataflow

בדף הזה מתוארות הדרכים השונות לבניית צינורות (pipelines) ל-Dataflow, והיתרונות של כל שיטה.

תבניות ש-Google סיפקה

‫Google מספקת תבניות קוד פתוח לעשרות צינורות Dataflow מוכנים מראש. אפשר להריץ את התבניות האלה ממסוףGoogle Cloud או משורת הפקודה. חלק מהתבניות תומכות בהוספה של פונקציה מוגדרת על ידי המשתמש (UDF), כדי שתוכלו לשנות את הנתונים לפני הכתיבה שלהם ליעד הפלט.

כדאי להשתמש בתבנית אם יש תבנית שמתאימה לתרחיש שלכם. רשימה מלאה זמינה במאמר תבניות שסופקו על ידי Google.

כלי ליצירת משרות

כלי בניית המשימות הוא ממשק משתמש ויזואלי לבנייה ולהרצה של צינורות Dataflow במסוף, בלי לכתוב קוד. Google Cloud בכלי ליצירת משימות, יוצרים צינור על ידי בחירת מקורות, יעדים וטרנספורמציות, ומקשרים אותם ליצירת גרף. בנוסף, הכלי ליצירת משימות מאפשר לשמור ולטעון את צינורות העיבוד כקובצי YAML.

כדאי להשתמש בכלי ליצירת משרות בתרחישים הבאים:

  • יוצרים צינורות בהתאמה אישית אם תבנית שסופקה על ידי Google לא מתאימה לתרחיש שלכם.
  • בניית צינורות עיבוד נתונים ללא כתיבת קוד.
  • יצירת צינורות עם כמה מקורות או יעדים.
  • ליצור אבות טיפוס במהירות.

מידע נוסף מופיע במאמר סקירה כללית של ממשק המשתמש של כלי ליצירת משימות.

הכלי ליצירת משימות תומך בחלק ממקורות הנתונים ויעדי הנתונים שזמינים ב-Apache Beam. אם אתם צריכים תבנית שלא נתמכת בכלי ליצירת משרות, נסו להשתמש בתבנית שסופקה על ידי Google או ב-SDK של Apache Beam.

‫Apache Beam SDK

צינורות עיבוד הנתונים של Dataflow מבוססים על Apache Beam SDK בקוד פתוח. כשמשתמשים ב-SDK כדי לכתוב את צינור הנתונים, מקבלים את כל היכולות של Apache Beam לעומסי העבודה. אפשר לכתוב צינורות ב-Java, ב-Python או ב-Go.

אם אתם לא מצליחים להשיג את התרחיש שלכם באמצעות תבנית שסופקה על ידי Google או באמצעות הכלי ליצירת משימות, כדאי לשקול להשתמש ב-Apache Beam SDK. לדוגמה:

  • צינורות מורכבים יותר שצריכים את כל התכונות של Apache Beam.
  • צינורות להזרמת נתונים שנדרשות בהם אסטרטגיות מתוחכמות יותר לטיפול בנתונים מאוחרים, כמו עיבוד מחדש.

מידע נוסף זמין במאמר שימוש ב-Apache Beam לבניית צינורות.

מחשבים ניידים

אפשר להריץ קוד Python של Apache Beam ב-notebook של JupyterLab. המחברות האלה זמינות דרך Vertex AI Workbench, שירות שמארח מכונות וירטואליות של מחברות עם frameworks של מדעי נתונים ולמידת מכונה שהותקנו מראש. בעזרת מחברות, לא צריך להגדיר סביבת פיתוח, ואפשר לבצע איטרציות מהירות על קוד צינור הנתונים. מחברות פועלות בסביבת בדיקה, אבל אפשר לייצא את הקוד לשימוש בסביבת ייצור.

מידע נוסף זמין במאמר בנושא פיתוח מחברות Apache Beam.