שירות Dataflow מריץ צינורות עיבוד נתונים שמוגדרים על ידי Apache Beam SDK. אבל בהרבה תרחישי שימוש, לא צריך לכתוב קוד באמצעות ה-SDK, כי Dataflow מספקת כמה אפשרויות בלי צורך בתכנות ועם תכנות מינימלי.
תבניות. Dataflow מספק תבניות מוכנות מראש להעברת נתונים ממוצר אחד למוצר אחר. לדוגמה, אפשר להשתמש בתבנית כדי להעביר נתונים מ-Pub/Sub ל-BigQuery.
בונה המשרות. כלי ליצירת משימות הוא ממשק משתמש ויזואלי ליצירת צינורות Dataflow במסוףGoogle Cloud . הוא תומך בחלק ממקורות הנתונים ויעדי הנתונים של Apache Beam, וגם בהמרות כמו צירופים, פונקציות Python ושאילתות SQL. מומלץ להשתמש בכלי ליצירת משימות לתרחישי שימוש פשוטים, כמו העברת נתונים.
טרנספורמציות מוכנות לשימוש ללמידת מכונה. בצינורות עיבוד נתונים של למידת מכונה (ML), Dataflow מספקת טרנספורמציות מוכנות לשימוש שלא דורשות הרבה קוד כדי להגדיר אותן. כנקודת התחלה, מריצים קובץ notebook לדוגמה של ML ב-Google Colab. מידע נוסף זמין בסקירה הכללית על Dataflow ML.
Apache Beam SDK. כדי לנצל את כל היכולות של Apache Beam, צריך להשתמש ב-SDK כדי לכתוב צינור עיבוד נתונים בהתאמה אישית ב-Python, ב-Java או ב-Go.
כדי לעזור לכם להחליט, בטבלה הבאה מפורטות כמה דוגמאות נפוצות.
| אני רוצה ... | גישה מומלצת |
|---|---|
| העברת נתונים ממקור ל-sink, ללא לוגיקה מותאמת אישית. |
מומלץ להתחיל עם כלי בניית המשרות. אם הכלי ליצירת משרות לא תומך בתרחיש השימוש שלכם, כדאי לבדוק אם יש תבנית שמתאימה לו. |
| העברת נתונים ממקור ליעד והחלת לוגיקה מותאמת אישית באמצעות פונקציות Python או SQL. | בונה המשרות |
| להשתמש במודל למידת מכונה בצינור עיבוד הנתונים שלי או להכין את הנתונים שלי לאימון או להסקת מסקנות. | Dataflow ML טרנספורמציות מוכנות לשימוש |
| לכתוב צינור שנדרשות בו תכונות מתקדמות יותר של Apache Beam. | Apache Beam SDK ל-Java, ל-Python או ל-Go |
המאמרים הבאים
- כדי להתחיל, אפשר לעיין בתרחיש שימוש ספציפי ב-Dataflow ובגישה מסוימת:
- מדריך למתחילים: שימוש בכלי ליצירת משרות
- מדריך למתחילים: הפעלת תבנית Dataflow
- Dataflow ML notebook: Use RunInference for Generative AI (מחברת Dataflow ML: שימוש ב-RunInference ל-AI גנרטיבי)
- יצירת צינור עיבוד נתונים של Dataflow באמצעות Apache Beam SDK ו-Python.
- תרחישים נוספים לדוגמה לשימוש ב-Dataflow
- מידע נוסף על יצירת צינורות