תזמון של צינורות עיבוד נתונים
במאמר הזה מוסבר איך לתזמן צינורות של BigQuery, כולל איך לתזמן צינורות ולבדוק הרצות מתוזמנות של צינורות.
הצינורות מופעלים על ידי Dataform. כל תזמון של צינור עיבוד נתונים מופעל באמצעות פרטי הכניסה של המשתמש בחשבון Google או באמצעות חשבון שירות מותאם אישית שבוחרים כשמגדירים את התזמון.
השינויים שתבצעו בצינור יישמרו אוטומטית, אבל הם יהיו זמינים רק לכם ולמשתמשים שקיבלו את תפקיד האדמין ב-Dataform בפרויקט. כדי לעדכן את לוח הזמנים עם גרסה חדשה של צינור העברת הנתונים, צריך לפרוס את צינור העברת הנתונים. פריסה מעדכנת את לוח הזמנים כך שישתמש בגרסה הנוכחית של צינור הנתונים. התזמון תמיד מריץ את הגרסה העדכנית ביותר שנפרסה.
בלוחות זמנים של צינורות עיבוד נתונים שמכילים מחברות, נעשה שימוש במפרט ברירת מחדל של זמן ריצה. במהלך הפעלה מתוזמנת של צינור שמכיל מחברות, BigQuery כותב את הפלט של המחברת אל הקטגוריה של Cloud Storage שנבחרה במהלך יצירת התזמון.
לפני שמתחילים
לפני שמתחילים, צריך ליצור צינור.
הפעלת תזמון של צינור עיבוד הנתונים
כדי לתזמן צינורות עיבוד נתונים, צריך להקצות את התפקיד הבא לחשבון השירות המותאם אישית שמתכננים להשתמש בו לתזמון צינורות עיבוד נתונים:
- משתמש בחשבון שירות (
roles/iam.serviceAccountUser) - פועלים לפי ההוראות שבקטע הקצאת תפקיד יחיד לחשבון שירות כדי להוסיף את חשבון השירות כישות מורשית לעצמו. במילים אחרות, מוסיפים את חשבון השירות כחשבון משתמש לאותו חשבון שירות. לאחר מכן, מעניקים לחשבון המשתמש הזה את התפקיד 'משתמש בחשבון שירות'.
אם צינור עיבוד הנתונים מכיל שאילתות SQL, צריך להעניק את התפקידים הבאים לחשבון השירות שמתכננים להשתמש בו לתזמון של צינור עיבוד הנתונים:
- BigQuery Job User (
roles/bigquery.jobUser) - פועלים לפי ההוראות במאמר בנושא הענקת תפקיד יחיד בפרויקט כדי להעניק לחשבון השירות את התפקיד BigQuery Job User בפרויקטים שמהם צינורות הנתונים קוראים נתונים.
- BigQuery Data Viewer (
roles/bigquery.dataViewer) - פועלים לפי השלבים במאמר הענקת תפקיד יחיד בפרויקט כדי להעניק לחשבון השירות את התפקיד BigQuery Data Viewer בפרויקטים שמהם צינורות הנתונים קוראים נתונים.
- עריכה של נתוני BigQuery (
roles/bigquery.dataEditor) - פועלים לפי ההוראות במאמר הענקת תפקיד יחיד בפרויקט כדי להעניק לחשבון השירות שלכם את התפקיד BigQuery Data Editor בפרויקטים שצינורות הנתונים כותבים אליהם נתונים.
אם צינור הנתונים מכיל מחברות, צריך להקצות את התפקידים הבאים לחשבון השירות שבו מתכננים להשתמש לתזמון של צינור הנתונים:
- משתמש בהרצת Notebook (
roles/aiplatform.notebookExecutorUser) - פועלים לפי ההוראות שבקטע הקצאת תפקיד יחיד בפרויקט כדי להקצות את התפקיד Notebook Executor User לחשבון השירות בפרויקט שנבחר.
- אדמין באחסון (
roles/storage.admin) - פועלים לפי ההוראות במאמר הוספת ישות מורשית למדיניות ברמת הקטגוריה כדי להוסיף את חשבון השירות שלכם כישות מורשית לקטגוריית Cloud Storage שבה אתם מתכננים לאחסן את הפלט של מחברות שמופעלות בהרצות מתוזמנות של צינורות, ומעניקים לישות המורשית הזו את התפקיד 'אדמין אחסון'.
בנוסף, עליך להקצות את התפקידים הבאים לסוכן השירות שמוגדר כברירת מחדל ב-Dataform:
- יצירת אסימונים בחשבון שירות (
roles/iam.serviceAccountTokenCreator) - פועלים לפי ההוראות במאמר איך נותנים הרשאת יצירת אסימונים לחשבון שירות כדי להוסיף את סוכן השירות של Dataform כחשבון משתמש לחשבון השירות, ולתת לחשבון המשתמש הזה את התפקיד 'יצירת אסימונים בחשבון שירות'.
- משתמש בחשבון שירות (
roles/iam.serviceAccountUser) - כדי לתת לסוכן השירות של Dataform שמוגדר כברירת מחדל את התפקיד Service Account User בחשבון השירות בהתאמה אישית, פועלים לפי ההוראות במאמר הענקת או ביטול של כמה תפקידי IAM באמצעות Google Cloud המסוף.
מידע נוסף על חשבונות שירות ב-Dataform זמין במאמר מידע על חשבונות שירות ב-Dataform.
התפקידים הנדרשים
כדי לקבל את ההרשאות שדרושות לניהול צינורות, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:
-
מחיקת צינורות:
אדמין Dataform (
roles/dataform.Admin) בצינור -
יצירה, עריכה, הפעלה ומחיקה של תזמוני פייפליין:
-
Dataform Admin (
roles/dataform.Admin) בפייפליין -
משתמש בחשבון שירות (
roles/iam.serviceAccountUser) בחשבון השירות המותאם אישית
-
Dataform Admin (
-
צפייה בצינורות עיבוד נתונים והרצה שלהם:
Dataform Viewer (
roles/dataform.Viewer) בפרויקט -
כדי לראות את לוחות הזמנים של צינורות:
Dataform Editor (
roles/dataform.Editor) on the project
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
כדי לשפר את האבטחה של קביעת פגישות, אפשר לקרוא על הטמעה של הרשאות משופרות לקביעת פגישות.
מידע נוסף על IAM ב-Dataform זמין במאמר בקרת גישה באמצעות IAM.
כדי להשתמש בתבניות של זמן ריצה של notebook של Colab כשמתזמנים צינורות, צריך את תפקיד המשתמש Notebook Runtime (roles/aiplatform.notebookRuntimeUser).
יצירת תזמון לפייפליין
כדי ליצור לוח זמנים לצינור:
החלונית Explorer
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על תזמון.
בחלונית Schedule pipeline, בשדה Schedule name, מזינים שם לתזמון.
בקטע אימות, מאשרים את צינור הנתונים באמצעות פרטי הכניסה של משתמש בחשבון Google או חשבון שירות.
- כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות Execute with my user credentials (הרצה עם פרטי הכניסה של המשתמש שלי).
- כדי להשתמש בחשבון שירות, בוחרים באפשרות Execute with selected service account ואז בוחרים חשבון שירות.
אם צינור הנתונים מכיל מחברת, בקטע Notebook options, בשדה Runtime template, בוחרים תבנית זמן ריצה של notebook של Colab או את מפרטי זמן הריצה שמוגדרים כברירת מחדל. פרטים על יצירת תבנית של סביבת זמן ריצה של מחברת Colab זמינים במאמר יצירת תבנית של זמן ריצה.
אם צינור הנתונים מכיל מחברת, בקטע Notebook options, בשדה Cloud Storage bucket, לוחצים על Browse ובוחרים או יוצרים קטגוריה של Cloud Storage לאחסון הפלט של מחברות בצינור הנתונים.
לחשבון השירות שבחרתם צריך להיות מוקצה תפקיד אדמין של Storage ב-IAM בדלי שבחרתם. מידע נוסף זמין במאמר בנושא הפעלת תזמון של צינורות.
בקטע Schedule frequency:
- בתפריט Repeats, בוחרים את התדירות של הפעלות צינורות מתוזמנות.
- בשדה At time, מזינים את השעה להפעלות מתוזמנות של צינור עיבוד הנתונים.
- בתפריט אזור זמן, בוחרים את אזור הזמן של התזמון.
מגדירים את העדיפות של עבודת השאילתה ב-BigQuery באמצעות האפשרות Execute as interactive job with high priority (default) (הפעלה כעבודה אינטראקטיבית עם עדיפות גבוהה (ברירת מחדל)). כברירת מחדל, BigQuery מריץ שאילתות כעבודות של שאילתות אינטראקטיביות, שמיועדות להתחיל לפעול כמה שיותר מהר. אם מבטלים את הסימון של האפשרות הזו, השאילתות מופעלות כמשימות של שאילתות אצווה, שהעדיפות שלהן נמוכה יותר.
לוחצים על יצירת לוח זמנים. אם בחרתם באפשרות Execute with my user credentials (ביצוע באמצעות פרטי הכניסה של המשתמש) כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).
כשיוצרים את לוח הזמנים, הגרסה הנוכחית של צינור עיבוד הנתונים נפרסת באופן אוטומטי. כדי לעדכן את לוח הזמנים עם גרסה חדשה של צינור העיבוד, פורסים את צינור העיבוד.
הגרסה האחרונה של הפייפליין שנפרסה תפעל בזמן ובתדירות שנבחרו.
הדף תזמון
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על יצירה ובוחרים באפשרות תזמון צינור בתפריט.
בחלונית Schedule pipeline, בוחרים צינור להוספה לתזמון.
בשדה שם לוח הזמנים, מזינים שם ללוח הזמנים.
בקטע אימות, מאשרים את צינור הנתונים באמצעות פרטי הכניסה של משתמש בחשבון Google או חשבון שירות.
- כדי להשתמש בפרטי הכניסה של המשתמש בחשבון Google (תצוגה מקדימה), בוחרים באפשרות Execute with my user credentials (הרצה עם פרטי הכניסה של המשתמש שלי).
- כדי להשתמש בחשבון שירות, בוחרים באפשרות Execute with selected service account ואז בוחרים חשבון שירות.
אם צינור הנתונים מכיל מחברת, בקטע Notebook options, בשדה Runtime template, בוחרים תבנית זמן ריצה של notebook של Colab או את מפרטי זמן הריצה שמוגדרים כברירת מחדל. פרטים על יצירת תבנית של סביבת זמן ריצה של מחברת Colab זמינים במאמר יצירת תבנית של זמן ריצה.
אם צינור הנתונים מכיל מחברת, בשדה Cloud Storage bucket לוחצים על Browse ובוחרים או יוצרים קטגוריה של Cloud Storage לאחסון הפלט של המחברות בצינור הנתונים.
לחשבון השירות שבחרתם צריך להיות מוקצה תפקיד אדמין של Storage ב-IAM בדלי שבחרתם. מידע נוסף זמין במאמר בנושא הפעלת תזמון של צינורות.
בקטע Schedule frequency:
- בתפריט חזרה, בוחרים את התדירות של הפעלות צינורות מתוזמנות.
- בשדה At time, מזינים את השעה להפעלות מתוזמנות של צינור עיבוד הנתונים.
- בתפריט אזור זמן, בוחרים את אזור הזמן של התזמון.
מגדירים את העדיפות של עבודת השאילתה ב-BigQuery באמצעות האפשרות Execute as interactive job with high priority (default) (הפעלה כעבודה אינטראקטיבית עם עדיפות גבוהה (ברירת מחדל)). כברירת מחדל, BigQuery מריץ שאילתות כעבודות של שאילתות אינטראקטיביות, שמיועדות להתחיל לפעול כמה שיותר מהר. אם מבטלים את הסימון של האפשרות הזו, השאילתות מופעלות כמשימות של שאילתות אצווה, שהעדיפות שלהן נמוכה יותר.
לוחצים על יצירת לוח זמנים. אם בחרתם באפשרות Execute with my user credentials (ביצוע באמצעות פרטי הכניסה של המשתמש) כשיטת האימות, אתם צריכים לתת הרשאה לחשבון Google (תצוגה מקדימה).
איך נותנים הרשאה לחשבון Google
כדי לאמת את המשאב באמצעות פרטי הכניסה של המשתמש בחשבון Google, צריך להעניק הרשאה באופן ידני לצינורות של BigQuery לקבל את טוקן הגישה לחשבון Google ולגשת לנתוני המקור בשמכם. אתם יכולים לתת אישור ידני באמצעות ממשק תיבת הדו-שיח של OAuth.
צריך לתת הרשאה לצינורות של BigQuery רק פעם אחת.
כדי לבטל את ההרשאה שנתתם:
- עוברים אל הדף של החשבון ב-Google.
- לוחצים על BigQuery Pipelines.
- לוחצים על הסרת הגישה.
שינוי הבעלים של תזמון צינור הנתונים על ידי עדכון פרטי הכניסה דורש גם אישור ידני אם הבעלים החדש של חשבון Google מעולם לא יצר תזמון.
אם צינור הנתונים מכיל מחברת, צריך גם לתת באופן ידני הרשאה ל-Colab Enterprise לקבל את אסימון הגישה לחשבון Google שלכם ולגשת לנתוני המקור בשמכם. צריך לתת הרשאה רק פעם אחת. אפשר לבטל את ההרשאה הזו בדף של חשבון Google.
פריסת צינור עיבוד נתונים
כשפורסים צינור, לוח הזמנים שלו מתעדכן לגרסה הנוכחית של הצינור. התזמון מריץ את הגרסה האחרונה של הצינור שפרסתם.
כדי לפרוס צינור, מבצעים את השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על פריסה.
לוח הזמנים המתאים מתעדכן עם הגרסה הנוכחית של צינור הנתונים. הגרסה האחרונה של הצינור שפריסתה הושלמה תפעל בזמן המתוזמן.
השבתת לוח זמנים
כדי להשהות את ההרצות המתוזמנות של צינור נתונים נבחר בלי למחוק את התזמון, אפשר להשבית את התזמון.
כדי להשבית לוח זמנים עבור צינור שנבחר, פועלים לפי השלבים הבאים:
החלונית Explorer
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על הצגת לוח הזמנים.
בטבלה פרטי התזמון, בשורה מצב התזמון, לוחצים על המתג התזמון מופעל.
הדף תזמון
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על השם של צינור הנתונים שנבחר.
בדף פרטי התזמון, לוחצים על השבתה.
הפעלת לוח זמנים
כדי להפעיל מחדש תזמון של צינור השבתה:
החלונית Explorer
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על הצגת לוח הזמנים.
בטבלה פרטי התזמון, בשורה מצב התזמון, לוחצים על המתג התזמון מושבת.
הדף תזמון
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על השם של צינור הנתונים שנבחר.
בדף פרטי התזמון, לוחצים על הפעלה.
הפעלה ידנית של צינור עיבוד נתונים שנפרס
כשמריצים ידנית צינור נתונים שנפרס בלוח זמנים נבחר, BigQuery מריץ את צינור הנתונים שנפרס פעם אחת, באופן עצמאי מלוח הזמנים.
כדי להפעיל ידנית צינור להעברת נתונים שפרסתם:
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על השם של תזמון הצינור שנבחר.
בדף פרטי התזמון, לוחצים על הפעלה.
הצגת כל לוחות הזמנים של צינורות העיבוד
כדי לראות את כל התזמונים של צינורות העברת הנתונים בפרויקט Google Cloud , פועלים לפי השלבים הבאים:
נכנסים לדף Scheduling במסוף Google Cloud .
אופציונלי: כדי להציג עמודות נוספות עם פרטים על לוח הזמנים של הצינור, לוחצים על Column display options (אפשרויות להצגת עמודות), בוחרים עמודות ולוחצים על OK (אישור).
הצגת פרטים על תזמון צינורות
כדי לראות את הפרטים של לוח זמנים שנבחר לצינור:
החלונית Explorer
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על הצגת לוח הזמנים.
הדף תזמון
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על השם של תזמון הצינור שנבחר.
הצגת ריצות מתוזמנות קודמות
כדי לראות הפעלות קודמות של לוח זמנים שנבחר של צינור:
החלונית Explorer
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על Executions (הרצות).
אופציונלי: כדי לרענן את רשימת ההרצות הקודמות, לוחצים על רענון.
הדף תזמון
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על השם של צינור הנתונים שנבחר.
בדף פרטי התזמון, בקטע הפעלות קודמות, בודקים את ההרצות הקודמות.
אופציונלי: כדי לרענן את רשימת ההרצות הקודמות, לוחצים על רענון.
עריכת תזמון של פייפליין
כדי לערוך לוח זמנים של צינור:
החלונית Explorer
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על הצגת לוח הזמנים ואז על עריכה.
בתיבת הדו-שיח תזמון צינור, עורכים את התזמון ולוחצים על עדכון התזמון.
הדף תזמון
נכנסים לדף Scheduling במסוף Google Cloud .
לוחצים על השם של צינור הנתונים שנבחר.
בדף פרטי התזמון, לוחצים על עריכה.
לוחצים על הצגת לוח הזמנים ואז על עריכה.
בתיבת הדו-שיח תזמון צינור, עורכים את התזמון ולוחצים על עדכון התזמון.
מחיקה של לוח זמנים של צינור
כדי למחוק סופית לוח זמנים של צינור:
נכנסים לדף Scheduling במסוף Google Cloud .
בצע אחת מהפעולות הבאות:
לוחצים על השם של תזמון צינור הנתונים שנבחר, ואז בדף פרטי התזמון לוחצים על מחיקה.
בשורה שמכילה את לוח הזמנים של צינור הנתונים שנבחר, לוחצים על הצגת פעולות בעמודה פעולות ואז על מחיקה.
בתיבת הדו-שיח שמופיעה, לוחצים על מחיקה.