ניהול צינורות עיבוד נתונים
במאמר הזה מוסבר איך לנהל צינורות נתונים של BigQuery, כולל איך לתזמן ולמחוק צינורות נתונים.
במסמך הזה מוסבר גם איך לצפות במטא-נתונים של צינורות העברת נתונים ולנהל אותם ב-Dataplex Universal Catalog.
הצינורות מופעלים על ידי Dataform.
לפני שמתחילים
- יצירת צינור עיבוד נתונים ב-BigQuery.
- כדי לנהל מטא-נתונים של צינורות ב-Dataplex Universal Catalog, צריך לוודא ש-Dataplex API מופעל בפרויקט Google Cloud .
התפקידים הנדרשים
כדי לקבל את ההרשאות שדרושות לניהול צינורות, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:
-
כדי למחוק צינורות:
אדמין Dataform (
roles/dataform.Admin) בצינור -
כדי לראות ולהריץ צינורות עיבוד נתונים:
Dataform Viewer (
roles/dataform.Viewer) בפרויקט
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
כדי לנהל מטא-נתונים של צינורות ב-Dataplex Universal Catalog, צריך לוודא שיש לכם את התפקידים הנדרשים ב-Dataplex Universal Catalog.
מידע נוסף על IAM ב-Dataform זמין במאמר בקרת גישה באמצעות IAM.
הצגת כל צינורות הנתונים
כדי לראות רשימה של כל צינורות האספקה בפרויקט:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer מרחיבים את הפרויקט ולוחצים על Pipelines.
צפייה בהפעלות ידניות קודמות
כדי לראות הפעלות ידניות קודמות של צינור נתונים נבחר, פועלים לפי השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על Executions (הרצות).
אופציונלי: כדי לרענן את רשימת ההרצות הקודמות, לוחצים על רענון.
הגדרת התראות על הפעלות של צינורות עיבוד נתונים שנכשלו
לכל צינור יש מזהה מאגר תואם ב-Dataform. כל הרצה של צינור ב-BigQuery מתועדת ב-Cloud Logging באמצעות מזהה המאגר התואם של Dataform. אתם יכולים להשתמש ב-Cloud Monitoring כדי לעקוב אחרי מגמות ביומנים של Cloud Logging לגבי הרצות של צינורות עיבוד נתונים ב-BigQuery, וכדי לקבל התראות כשמתרחשים תנאים שאתם מגדירים.
כדי לקבל התראות כשריצת צינור ב-BigQuery נכשלת, אפשר ליצור מדיניות התראות מבוססת-יומן עבור מזהה מאגר Dataform המתאים. הוראות מפורטות זמינות במאמר הגדרת התראות על הפעלות של תהליכי עבודה שנכשלו.
כדי למצוא את מזהה מאגר Dataform של צינור העיבוד:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט, לוחצים על Pipelines ואז בוחרים צינור.
לוחצים על הגדרות.
מזהה מאגר Dataform של צינור העברת הנתונים מוצג בחלק התחתון של הכרטיסייה הגדרות.
מחיקת צינור עיבוד נתונים
כדי למחוק סופית צינור, פועלים לפי השלבים הבאים:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

בחלונית Explorer מרחיבים את הפרויקט ולוחצים על Pipelines.
מאתרים את צינור הנתונים שרוצים למחוק.
לצד הצינור, לוחצים על הצגת פעולות ואז על מחיקה.
לוחצים על Delete.
ניהול מטא-נתונים ב-Dataplex Universal Catalog
Dataplex Universal Catalog מאפשר לכם לאחסן ולנהל מטא-נתונים של צינורות נתונים. צינורות זמינים ב-Dataplex Universal Catalog כברירת מחדל, ללא צורך בהגדרה נוספת.
אתם יכולים להשתמש ב-Dataplex Universal Catalog כדי לנהל צינורות בכל המיקומים של צינורות. הניהול של צינורות ב-Dataplex Universal Catalog כפוף למכסות ולמגבלות של Dataplex Universal Catalog ולתמחור של Dataplex Universal Catalog.
Dataplex Universal Catalog מאחזר באופן אוטומטי את המטא-נתונים הבאים מצינורות:
- שם נכס הנתונים
- נכס הורה של נתוני נכס
- מיקום נכס הנתונים
- סוג נכס הנתונים
- פרויקט Google Cloud מתאים
צינורות Dataplex Universal Catalog נרשמים כרשומות עם ערכי הרשומות הבאים:
- קבוצת רשומות של מערכת
- קבוצת רשומות המערכת של צינורות היא
@dataform. כדי לראות את הפרטים של רשומות צינורות ב-Dataplex Universal Catalog, צריך לראות את קבוצת רשומות המערכתdataform. הוראות להצגת רשימה של כל הרשומות בקבוצת רשומות מופיעות במאמר הצגת הפרטים של קבוצת רשומות במסמכי התיעוד של Dataplex Universal Catalog. - סוג רשומה של מערכת
- סוג רשומת המערכת של צינורות הוא
dataform-code-asset. כדי לראות את הפרטים של צינורות, צריך להציג את סוג הרשומה של המערכת, לסנן את התוצאות באמצעות מסנן מבוסס-היבטים ולהגדיר את השדה בתוך ההיבט לערך .dataform-code-assetdataform-code-assettypeWORKFLOWלאחר מכן בוחרים רשומה של הצינור שנבחר. הוראות להצגת הפרטים של סוג רשומה נבחר מופיעות במאמר הצגת הפרטים של סוג רשומה בתיעוד של Dataplex Universal Catalog. הוראות להצגת הפרטים של רשומה נבחרת מופיעות במאמר הצגת הפרטים של רשומה בתיעוד של Dataplex Universal Catalog. - סוג ההיבט של המערכת
- סוג ההיבט של המערכת לצינורות הוא
dataform-code-asset. כדי לספק הקשר נוסף לפייפליינים ב-Dataplex Universal Catalog על ידי הוספת הערות לרשומות של פייפליינים עם היבטים, צריך להציג את סוג ההיבטdataform-code-asset, לסנן את התוצאות באמצעות מסנן מבוסס-היבטים ולהגדיר את השדהtypeבתוך ההיבטdataform-code-assetלערךWORKFLOW. הוראות להוספת הערות להיבטים של רשומות מופיעות במאמר ניהול היבטים והעשרת מטא-נתונים במסמכי התיעוד של Dataplex Universal Catalog. - סוג
- הסוג של לוחות ציור של נתונים הוא
WORKFLOW. הסוג הזה מאפשר לסנן צינורות בdataform-code-assetsystem entry type וב-dataform-code-assetaspect type באמצעות השאילתה בaspect-based filter.aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW
הוראות לחיפוש נכסים ב-Dataplex Universal Catalog מופיעות במאמר חיפוש נכסי נתונים ב-Dataplex Universal Catalog במסמכי התיעוד של Dataplex Universal Catalog.