תזמון עומסי עבודה
משימות BigQuery הן בדרך כלל חלק מעומסי עבודה גדולים יותר, כאשר משימות חיצוניות מפעילות פעולות BigQuery ואז מופעלות על ידי פעולות BigQuery. תזמון עומסי עבודה עוזר לאדמינים, לאנליסטים ולמפתחים של נתונים לארגן ולשפר את שרשרת הפעולות הזו, וליצור חיבור חלק בין מקורות נתונים ותהליכים. שיטות וכלים לתזמון עוזרים לתכנן, ליצור, להטמיע ולנטר את עומסי העבודה המורכבים האלה של נתונים.
בחירת שיטת תזמון
כדי לבחור שיטת תזמון, צריך לזהות אם עומסי העבודה מבוססים על אירועים, על זמן או על שניהם. אירוע מוגדר כשינוי במצב, כמו שינוי בנתונים במסד נתונים או קובץ שנוסף למערכת אחסון. בתזמון מבוסס-אירועים, פעולה באתר עשויה להפעיל פעילות של נתונים, או שאובייקט שנכנס לקטגוריה מסוימת צריך לעבור עיבוד מיידי עם ההגעה. בתזמון לפי זמן, יכול להיות שיהיה צורך לטעון נתונים חדשים פעם ביום או בתדירות גבוהה מספיק כדי ליצור דוחות שעתיים. אתם יכולים להשתמש בתזמון מבוסס-אירועים ובתזמון מבוסס-זמן בתרחישים שבהם אתם צריכים לטעון אובייקטים לאגם נתונים בזמן אמת, אבל דוחות הפעילות באגם הנתונים נוצרים רק מדי יום.
בחירת כלי לתזמון
כלי תזמון עוזרים במשימות שקשורות לניהול עומסי עבודה מורכבים של נתונים, כמו שילוב של כמה שירותים של Google Cloud או של צד שלישי עם משימות BigQuery, או הפעלה מקבילה של כמה משימות BigQuery. לכל עומס עבודה יש דרישות ייחודיות לניהול תלות ופרמטרים, כדי להבטיח שהמשימות יבוצעו בסדר הנכון באמצעות הנתונים הנכונים. Google Cloud מספק כמה אפשרויות תזמון שמבוססות על שיטת התזמון ועל דרישות עומס העבודה.
מומלץ להשתמש ב-Dataform, ב-Workflows, ב-Cloud Composer או ב-Vertex AI Pipelines ברוב תרחישי השימוש. בטבלה הבאה מופיעה השוואה בטבלה:
| Dataform | תהליכי עבודה | Cloud Composer | Vertex AI Pipelines | |
|---|---|---|---|---|
| מצב פוקוס | התאמת נתונים | מיקרו-שירותים (microservices) | ETL או ELT | למידת מכונה |
| מורכבות | * | ** | *** | ** |
| פרופיל משתמש | מנתח נתונים או אדמין | אדריכל נתונים | מהנדס מערכות מידע | מנתח נתונים |
| סוג קוד | JavaScript, SQL, Python notebooks | YAML או JSON | Python | Python |
| בלי שרת (serverless)? | כן | כן | מנוהל באופן מלא | כן |
| לא מתאים ל | שרשרות של שירותים חיצוניים | טרנספורמציה ועיבוד של נתונים | צינורות נתונים עם זמן אחזור נמוך או צינורות נתונים מבוססי-אירועים | משימות שקשורות לתשתית |
בקטעים הבאים מפורטים כלי התזמון האלה ועוד כמה כלים.
שאילתות מתוזמנות
הדרך הכי פשוטה לתזמן עומסי עבודה היא לתזמן שאילתות חוזרות ישירות ב-BigQuery. זו הגישה הכי פשוטה לתזמון, אבל אנחנו ממליצים להשתמש בה רק עבור שרשראות פשוטות של שאילתות ללא תלות חיצונית. שאילתות שמתוזמנות בדרך הזו צריכות להיכתב ב-GoogleSQL ויכולות לכלול הצהרות של שפת הגדרת נתונים (DDL) ושל שפת טיפול בנתונים (DML).
שיטת התזמון: לפי זמן
Dataform
Dataform הוא מסגרת טרנספורמציה חינמית מבוססת-SQL, שמתזמנת משימות מורכבות של טרנספורמציה של נתונים ב-BigQuery. כשנתונים גולמיים נטענים ל-BigQuery, Dataform עוזר ליצור אוסף מאורגן, שנבדק ושנמצא בבקרת גרסאות של מערכי נתונים וטבלאות. אפשר להשתמש ב-Dataform כדי לתזמן הרצות של הכנת הנתונים, מחברות וצינורות נתונים של BigQuery.
שיטת התזמון: לפי זמן
Workflows
Workflows הוא כלי ללא שרת (serverless) שמתזמן שירותים מבוססי-HTTP עם זמן אחזור נמוך מאוד. הוא מתאים במיוחד לשרשור מיקרו-שירותים, לאוטומציה של משימות תשתית, לאינטגרציה עם מערכות חיצוניות או ליצירת רצף של פעולות ב- Google Cloud. מידע נוסף על שימוש ב-Workflows עם BigQuery זמין במאמר הרצת כמה משימות BigQuery במקביל.
שיטת התזמון: מבוססת-אירועים ומבוססת-זמן
Cloud Composer
Cloud Composer הוא כלי מנוהל שמבוסס על Apache Airflow. הוא מתאים במיוחד לעומסי עבודה של חילוץ, טרנספורמציה וטעינה (ETL) או חילוץ, טעינה וטרנספורמציה (ELT), כי הוא תומך בכמה סוגים ודפוסים של אופרטורים, וגם בהרצת משימות במוצרים אחרים של Google Cloudובמטרות חיצוניות. מידע נוסף על שימוש ב-Cloud Composer עם BigQuery זמין במאמר בנושא הרצת DAG של ניתוח נתונים ב- Google Cloud.
שיטת התזמון: לפי זמן
Vertex AI Pipelines
Vertex AI Pipelines הוא כלי ללא שרת שמבוסס על Kubeflow Pipelines ומיועד במיוחד לתזמון של עומסי עבודה של למידת מכונה. הוא מבצע אוטומציה ומקשר את כל המשימות של פיתוח ופריסת המודל, מנתוני האימון ועד לקוד, ומספק לכם תצוגה מלאה של אופן הפעולה של המודלים. מידע נוסף על שימוש ב-Vertex AI Pipelines עם BigQuery זמין במאמר ייצוא ופריסה של מודל למידת מכונה של BigQuery לצורך חיזוי.
שיטת התזמון: מבוססת-אירועים
Apigee Integration
Apigee Integration הוא תוסף לפלטפורמת Apigee שכולל מחברים וכלים להמרת נתונים. הוא הכי מתאים לשילוב עם אפליקציות ארגוניות חיצוניות, כמו Salesforce. מידע נוסף על שימוש ב-Apigee Integration עם BigQuery זמין במאמר תחילת העבודה עם Apigee Integration וטריגר של Salesforce.
שיטת התזמון: מבוססת-אירועים ומבוססת-זמן
Cloud Data Fusion
Cloud Data Fusion הוא כלי לשילוב נתונים שמציע צינורות ELT/ETL ללא קוד ויותר מ-150 מחברים והמרות שהוגדרו מראש. מידע נוסף על שימוש ב-Cloud Data Fusion עם BigQuery זמין במאמר בנושא שכפול נתונים מ-MySQL ל-BigQuery.
שיטת התזמון: מבוססת-אירועים ומבוססת-זמן
Cloud Scheduler
Cloud Scheduler הוא מתזמן משימות מנוהל במלואו, למשימות כמו סטרימינג באצווה או פעולות בתשתית שצריכות להתבצע במרווחי זמן מוגדרים. מידע נוסף על שימוש ב-Cloud Scheduler עם BigQuery זמין במאמר בנושא תזמון תהליכי עבודה באמצעות Cloud Scheduler.
שיטת התזמון: לפי זמן
Cloud Tasks
Cloud Tasks הוא שירות מנוהל במלואו להפצה אסינכרונית של משימות שניתן לבצע באופן עצמאי, מחוץ לעומס העבודה הראשי. הוא מתאים במיוחד להעברת פעולות איטיות ברקע או לניהול קצב הקריאות ל-API. מידע נוסף על שימוש ב-Cloud Tasks עם BigQuery זמין במאמר בנושא הוספת משימה לתור של Cloud Tasks.
שיטת התזמון: מבוססת-אירועים
כלי צד שלישי
אפשר גם להתחבר ל-BigQuery באמצעות מספר כלים פופולריים של צד שלישי, כמו CData ו-SnapLogic. במסגרת תוכנית BigQuery Ready, מוצעת רשימה מלאה של פתרונות שותפים שעברו אימות.
כלים להעברת הודעות
עומסי עבודה רבים של נתונים דורשים חיבורים נוספים להעברת הודעות בין מיקרו-שירותים מנותקים שצריך להפעיל רק כשמתרחשים אירועים מסוימים.Google Cloud מספקת שני כלים שנועדו להשתלב עם BigQuery.
Pub/Sub
Pub/Sub הוא כלי אסינכרוני להעברת הודעות שמשמש לצינורות שילוב נתונים. הוא נועד לקבל ולהפיץ נתונים כמו אירועים בשרת ואינטראקציות של משתמשים. אפשר להשתמש בו גם לעיבוד מקביל ולסטרימינג של נתונים ממכשירי IoT. מידע נוסף על שימוש ב-Pub/Sub עם BigQuery זמין במאמר הזרמת נתונים מ-Pub/Sub אל BigQuery.
Eventarc
Eventarc הוא כלי מבוסס-אירועים שמאפשר לכם לנהל את זרימת השינויים במצב לאורך פייפליין הנתונים. יש לכלי הזה מגוון רחב של תרחישי שימוש, כולל תיקון שגיאות אוטומטי, תיוג משאבים, ריטוש תמונות ועוד. מידע נוסף על שימוש ב-Eventarc עם BigQuery זמין במאמר יצירת צינור לעיבוד נתונים ב-BigQuery באמצעות Eventarc.
המאמרים הבאים
- איך מתזמנים שאילתות חוזרות ישירות ב-BigQuery
- איך מתחילים לעבוד עם Dataform
- איך מתחילים לעבוד עם תהליכי עבודה
- תחילת העבודה עם Cloud Composer
- מתחילים להשתמש ב-Vertex AI Pipelines.
- איך מתחילים להשתמש ב-Apigee Integration
- תחילת העבודה עם Cloud Data Fusion.
- תחילת העבודה עם Cloud Scheduler.
- תחילת העבודה עם Pub/Sub
- איך מתחילים לעבוד עם Eventarc