תחילת העבודה עם Dataflow

שירות Dataflow מריץ צינורות עיבוד נתונים שמוגדרים על ידי Apache Beam SDK. אבל בהרבה תרחישי שימוש, לא צריך לכתוב קוד באמצעות ה-SDK, כי Dataflow מספקת כמה אפשרויות בלי צורך בתכנות ועם תכנות מינימלי.

  • תבניות. ‫Dataflow מספק תבניות מוכנות מראש להעברת נתונים ממוצר אחד למוצר אחר. לדוגמה, אפשר להשתמש בתבנית כדי להעביר נתונים מ-Pub/Sub ל-BigQuery.

  • בונה המשרות. כלי ליצירת משימות הוא ממשק משתמש ויזואלי ליצירת צינורות Dataflow במסוףGoogle Cloud . הוא תומך בחלק ממקורות הנתונים ויעדי הנתונים של Apache Beam, וגם בהמרות כמו צירופים, פונקציות Python ושאילתות SQL. מומלץ להשתמש בכלי ליצירת משימות לתרחישי שימוש פשוטים, כמו העברת נתונים.

  • טרנספורמציות מוכנות לשימוש ללמידת מכונה. בצינורות עיבוד נתונים של למידת מכונה (ML),‏ Dataflow מספקת טרנספורמציות מוכנות לשימוש שלא דורשות הרבה קוד כדי להגדיר אותן. כנקודת התחלה, מריצים קובץ notebook לדוגמה של ML ב-Google Colab. מידע נוסף זמין בסקירה הכללית על Dataflow ML.

  • Apache Beam SDK. כדי לנצל את כל היכולות של Apache Beam, צריך להשתמש ב-SDK כדי לכתוב צינור עיבוד נתונים בהתאמה אישית ב-Python, ב-Java או ב-Go.

כדי לעזור לכם להחליט, בטבלה הבאה מפורטות כמה דוגמאות נפוצות.

אני רוצה ... גישה מומלצת
העברת נתונים ממקור ל-sink, ללא לוגיקה מותאמת אישית.

כלי ליצירת משרות או תבנית

מומלץ להתחיל עם כלי בניית המשרות. אם הכלי ליצירת משרות לא תומך בתרחיש השימוש שלכם, כדאי לבדוק אם יש תבנית שמתאימה לו.

העברת נתונים ממקור ליעד והחלת לוגיקה מותאמת אישית באמצעות פונקציות Python או SQL. בונה המשרות
להשתמש במודל למידת מכונה בצינור עיבוד הנתונים שלי או להכין את הנתונים שלי לאימון או להסקת מסקנות. Dataflow ML טרנספורמציות מוכנות לשימוש
לכתוב צינור שנדרשות בו תכונות מתקדמות יותר של Apache Beam. Apache Beam SDK ל-Java, ל-Python או ל-Go

המאמרים הבאים