כלי ליצירת משימות הוא ממשק משתמש ויזואלי ליצירה ולהרצה של צינורות Dataflow במסוף, בלי לכתוב קוד. Google Cloud
בתמונה הבאה מוצג חלק מממשק המשתמש של הכלי ליצירת משרות. בתמונה הזו, המשתמש יוצר צינור להעברה מ-Pub/Sub ל-BigQuery:
סקירה כללית
הכלי ליצירת משימות תומך בקריאה ובכתיבה של סוגי הנתונים הבאים:
- הודעות Pub/Sub
- נתונים בטבלה ב-BigQuery
- קובצי CSV, קובצי JSON וקובצי טקסט ב-Cloud Storage
- נתוני טבלה של PostgreSQL, MySQL, Oracle ו-SQL Server
היא תומכת בטרנספורמציות של צינורות, כולל filter, map, SQL, group-by, join ו-explode (השטחת מערך).
בעזרת הכלי ליצירת משרות תוכלו:
- סטרימינג מ-Pub/Sub ל-BigQuery עם טרנספורמציות וצבירה בחלון
- כתיבת נתונים מ-Cloud Storage ל-BigQuery
- שימוש בטיפול בשגיאות כדי לסנן נתונים שגויים (תור הודעות שלא ניתן למסור)
- שינוי או צבירה של נתונים באמצעות SQL עם טרנספורמציית SQL
- הוספה, שינוי או הסרה של שדות מנתונים באמצעות טרנספורמציות של מיפוי
- תזמון של משימות חוזרות באצווה
הכלי ליצירת משימות יכול גם לשמור צינורות עיבוד נתונים כקובצי Apache Beam YAML ולטעון הגדרות של צינורות עיבוד נתונים מקובצי Beam YAML. באמצעות התכונה הזו, אתם יכולים לעצב את צינור הנתונים בכלי ליצירת משימות, ואז לשמור את קובץ ה-YAML ב-Cloud Storage או במאגר של בקרת מקור לשימוש חוזר. אפשר להשתמש בהגדרות של משימות ב-YAML גם כדי להפעיל משימות באמצעות ה-CLI של gcloud.
כדאי להשתמש בכלי ליצירת משרות בתרחישים הבאים:
- אתם רוצים לבנות צינור במהירות בלי לכתוב קוד.
- רוצים לשמור צינור (pipeline) ב-YAML לשימוש חוזר.
- אפשר להגדיר את צינור עיבוד הנתונים באמצעות המקורות, היעדים והטרנספורמציות הנתמכים.
- אין תבנית ש-Google מספקת שמתאימה לתרחיש לדוגמה שלכם.
הרצת משימה לדוגמה
הדוגמה של ספירת מילים היא צינור עיבוד באצווה שקורא טקסט מ-Cloud Storage, מבצע טוקניזציה של שורות הטקסט למילים נפרדות ומבצע ספירת תדירות של כל אחת מהמילים.
אם קטגוריית Cloud Storage נמצאת מחוץ לגבולות גזרה לשירות, צריך ליצור כלל תעבורת נתונים יוצאת (egress) שמאפשר גישה לקטגוריה.
כדי להפעיל את צינור העיבוד Word Count:
נכנסים לדף Jobs במסוף Google Cloud .
לוחצים על Create job from template.
בחלונית הצדדית, לוחצים על Job builder (כלי ליצירת משרות).
לוחצים על טעינת תוכניות.
לוחצים על ספירת מילים. בונה המשימות מאוכלס בייצוג גרפי של צינור הנתונים.
לכל שלב בצינור העיבוד, בבונה המשימות מוצג כרטיס עם פרמטרי ההגדרה של אותו שלב. לדוגמה, בשלב הראשון קוראים קובצי טקסט מ-Cloud Storage. המיקום של נתוני המקור מאוכלס מראש בתיבה מיקום הטקסט.
מחפשים את הכרטיס עם הכותרת New sink (כיור חדש). יכול להיות שתצטרכו לגלול.
בתיבה Text location, מזינים את קידומת הנתיב של מיקום Cloud Storage לקובצי הפלט של הטקסט.
לוחצים על הפעלת העבודה. כלי בניית המשימות יוצר משימת Dataflow ואז עובר אל תרשים המשימה. כשהמשימה מתחילה, גרף המשימה מציג ייצוג גרפי של צינור עיבוד הנתונים. הייצוג הגרפי הזה דומה לזה שמוצג בכלי ליצירת משרות. במהלך ההפעלה של כל שלב בצינור, הסטטוס מתעדכן בתרשים המשימות.
בחלונית פרטי המשרה מוצג הסטטוס הכולל של המשרה. אם העבודה מסתיימת בהצלחה, השדה Job status מתעדכן ל-Succeeded.
המאמרים הבאים
- שימוש בממשק למעקב אחרי משימות ב-Dataflow.
- יוצרים משימה בהתאמה אישית בכלי ליצירת משימות.
- שמירה וטעינה של הגדרות משימות ב-YAML בכלי ליצירת משימות.
- מידע נוסף על Beam YAML