תרחישים לדוגמה לשימוש ב-Dataflow
Dataflow נועד לתמוך בצינורות עיבוד נתונים בסטרימינג ובאצווה בקנה מידה גדול. Dataflow מבוסס על מסגרת Apache Beam בקוד פתוח.
בדף הזה יש קישורים למדריכים ולתרחישים לדוגמה שיעזרו לכם להתחיל.
העברת נתונים
עיבוד נתונים מ-Kafka ל-BigQuery
במדריך הזה מוסבר איך להריץ תבנית Dataflow שקוראת מתוך השירות המנוהל ל-Apache Kafka וכותבת את הרשומות לטבלה ב-BigQuery.
עיבוד נתונים מ-Pub/Sub ל-BigQuery
במדריך הזה נסביר איך להריץ תבנית Dataflow שקוראת הודעות בקידוד JSON מ-Pub/Sub וכותבת אותן לטבלה ב-BigQuery.
Dataflow ML
שימוש ב-RunInference וב-Embeddings
במחברת הזו מוסבר איך להשתמש במודלים של ML בצינורות של Apache Beam שמשתמשים בטרנספורמציה RunInference.
שימוש ב-GPU בצינור עיבוד הנתונים
במחברת הזו מוסבר איך להריץ הסקה של למידת מכונה באמצעות vLLM ו-GPU. vLLM היא ספרייה להסקה ולהצגה של LLM.
משאבים נוספים
דפוסי הפניה
קישורים לדוגמאות קוד ולמדריכים טכניים בנושא תרחישי שימוש נפוצים ב-Dataflow.
צינור עיבוד נתונים בסטרימינג למסחר אלקטרוני
במדריך הזה תיצרו צינור לטרנספורמציה של נתונים ממסחר אלקטרוני מ-Pub/Sub, ותייצאו את הנתונים ל-BigQuery ול-Bigtable.
עומסי עבודה מקבילים מאוד של HPC
בעזרת Dataflow, אתם יכולים להריץ עומסי עבודה מקבילים מאוד בצינור עיבוד נתונים יחיד, לשפר את היעילות ולנהל את תהליך העבודה בקלות רבה יותר.