ניהול של הכנת נתונים

במאמר הזה מוסבר איך לנהל את ההכנות של נתוני BigQuery, כולל ניהול הגישה, ניהול הגרסאות, הביצועים והמטא-נתונים. בנוסף, מוסבר בה איך לבצע משימות בסיסיות, כמו צפייה בהכנות של הנתונים והורדה שלהם.

הכנת הנתונים היא משאבי BigQuery שמבוססים על Dataform. למידע נוסף, קראו את המאמר מבוא להכנת נתונים ב-BigQuery.

לפני שמתחילים

  1. מוודאים שהפעלתם את Gemini for Google Cloud API.
  2. כדי לנהל מטא-נתונים של הכנת נתונים ב-Dataplex Universal Catalog, צריך לוודא ש-Dataplex API מופעל בפרויקט Google Cloud .

התפקידים הנדרשים

משתמשים שמכינים את הנתונים וחשבונות השירות של Dataform שמריצים את העבודות צריכים את ההרשאות שמוענקות על ידי התפקידים הבאים של ניהול הזהויות והרשאות הגישה (IAM).

קבלת גישת משתמש להכנת נתונים

כדי לקבל את ההרשאות שדרושות להכנת נתונים ב-BigQuery, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

מידע נוסף על IAM למערכי נתונים ב-BigQuery זמין במאמר מתן גישה למערך נתונים.

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

קבלת גישה לניהול מטא-נתונים

כדי לקבל את ההרשאות שנדרשות לניהול המטא-נתונים של הכנת הנתונים ב-Dataplex Universal Catalog, צריך לוודא שיש לכם את התפקידים הנדרשים ב-Dataplex Universal Catalog ואת ההרשאה dataform.repositories.get.

מתן גישה לחשבון השירות של Dataform

כדי לוודא שלחשבון השירות של Dataform יש את ההרשאות שנדרשות להרצת הכנת נתונים ב-BigQuery, צריך לבקש מהאדמין להקצות לחשבון השירות של Dataform את תפקידי ה-IAM הבאים:

  • גישה לטבלאות המקור: ‫BigQuery Data Viewer (roles/bigquery.dataViewer) בטבלה, במערך הנתונים או בפרויקט
  • גישה לטבלאות היעד: BigQuery Data Editor (roles/bigquery.dataEditor) בטבלה, במערך הנתונים או בפרויקט

יכול להיות שחשבון השירות של Dataform יזדקק להרשאות נוספות, בהתאם לצינור להכנת הנתונים. מידע נוסף זמין במאמר בנושא מתן גישה נדרשת ל-Dataform.

צפייה בתהליכים קיימים להכנת נתונים

כדי לראות רשימה של הכנות נתונים קיימות, פועלים לפי השלבים הבאים:

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer מרחיבים את הפרויקט.

  4. לוחצים על הכנת נתונים.

אופטימיזציה של הכנת הנתונים באמצעות עיבוד הנתונים באופן מצטבר

כדי להגדיר את האופן שבו הנתונים המוכנים נכתבים בטבלת היעד, פועלים לפי השלבים הבאים.

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

  3. בחלונית Explorer, לוחצים על Data preparations ובוחרים את ההכנה של הנתונים.

  4. בסרגל הכלים של הכנת הנתונים, בוחרים באפשרות עוד > מצב כתיבה.

  5. בוחרים אחת מהאפשרויות. מידע נוסף זמין במאמר בנושא מצב כתיבה.

  6. לוחצים על Save.

רוצה לעזור לנו לשפר את ההצעות?

אתם יכולים לעזור לשפר את ההצעות של Gemini על ידי שיתוף עם Google של נתוני ההנחיות שאתם שולחים לתכונות בגרסת טרום-השקה. כדי לשתף את נתוני ההנחיות:

  1. פותחים את העורך להכנת נתונים ב-BigQuery.
  2. בסרגל הכלים של הכנת הנתונים, לוחצים על הגדרות אפשרויות נוספות.
  3. בוחרים באפשרות שיתוף נתונים לשיפור Gemini ב-BigQuery.

הגדרות שיתוף הנתונים חלות על הפרויקט כולו, ורק אדמין של הפרויקט עם הרשאות IAM‏ serviceusage.services.enable וserviceusage.services.list יכול להגדיר אותן. מידע נוסף על השימוש בנתונים בתוכנית הבודקים הנאמנים זמין במאמר תוכנית הבודקים הנאמנים של Gemini for Google Cloud .

גרסאות של תהליכי הכנת נתונים

אתם יכולים ליצור הכנת נתונים בתוך מאגר או מחוצה לו. ניהול גרסאות של הכנת הנתונים מטופל בצורה שונה בהתאם למיקום של הכנת הנתונים.

ניהול גרסאות של הכנת נתונים במאגרי מידע

מאגרים הם מאגרי Git שנמצאים ב-BigQuery או אצל ספק צד שלישי. אתם יכולים להשתמש בסביבות עבודה במאגרי מידע כדי לבצע ניהול גרסאות על הכנות נתונים. מידע נוסף זמין במאמר בנושא שימוש בניהול גרסאות בקובץ.

ניהול גרסאות של תהליכי הכנת נתונים מחוץ למאגרים

אי אפשר לראות, להשוות או לשחזר גרסאות של הכנת נתונים ב-BigQuery שלא נמצאות במאגרים.

כדי לראות רשימה של גרסאות של הכנת נתונים בסדר כרונולוגי:

  1. עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

  3. בחלונית Explorer, לוחצים על Data preparations ובוחרים את ההכנה של הנתונים.

  4. לוחצים על Version history (היסטוריית גרסאות).

הורדת תהליך להכנת הנתונים

כדי להוריד קובץ SQLX של הכנת נתונים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

  3. בחלונית Explorer, מרחיבים את הפרויקט ולוחצים על הכנת נתונים.

  4. לוחצים על השם של הכנת הנתונים שרוצים להוריד.

  5. לוחצים על הורדה. הכנת הנתונים נשמרת בפורמט קובץ SQLX – לדוגמה, NAME data preparation.dp.sqlx.

העלאת תהליך להכנת הנתונים

כדי להעלות הכנת נתונים מקובץ SQLX, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

  3. בחלונית Explorer מרחיבים את הפרויקט.

  4. לוחצים על הכנת נתונים ואז על more_vert הצגת פעולות > העלאה להכנת נתונים.

  5. בתיבת הדו-שיח העלאת נתונים להכנה, בוחרים קובץ להעלאה או מזינים את כתובת ה-URL של הכנת הנתונים.

  6. מזינים שם להכנת הנתונים.

  7. בוחרים מיקום להכנת הנתונים שבו המשאבים מנוהלים ומאוחסנים.

  8. לוחצים על Upload.

ניהול מטא-נתונים ב-Dataplex Universal Catalog

‫Dataplex Universal Catalog מאפשר לכם לאחסן ולנהל מטא-נתונים להכנת נתונים. הכנת הנתונים זמינה כברירת מחדל ב-Dataplex Universal Catalog, ללא צורך בהגדרה נוספת.

אפשר להשתמש ב-Dataplex Universal Catalog כדי לנהל את ההכנות של הנתונים בכל המיקומים של BigQuery. הניהול של הכנת הנתונים ב-Dataplex Universal Catalog כפוף למכסות ולמגבלות של Dataplex Universal Catalog ולתמחור של Dataplex Universal Catalog.

‫Dataplex Universal Catalog מאחזר באופן אוטומטי את המטא-נתונים הבאים מהכנת הנתונים:

  • שם נכס הנתונים
  • נכס הורה של נתוני נכס
  • מיקום נכס הנתונים
  • סוג נכס הנתונים
  • פרויקט Google Cloud מתאים

‫Dataplex Universal Catalog מתעד את ההכנות של הנתונים כרשומות עם ערכי הרשומות הבאים:

קבוצת רשומות של מערכת
קבוצת רשומות המערכת להכנת נתונים היא @dataform. כדי לראות את הפרטים של רשומות הכנת הנתונים ב-Dataplex Universal Catalog, צריך להציג את קבוצת הרשומות של המערכת dataform. הוראות להצגת רשימה של כל הרשומות בקבוצת רשומות מופיעות במאמר הצגת הפרטים של קבוצת רשומות במסמכי התיעוד של Dataplex Universal Catalog.
סוג רשומה של מערכת
סוג הרשומה במערכת להכנת נתונים הוא dataform-code-asset. כדי לראות את הפרטים של הכנת הנתונים, צריך להציג את dataform-code-asset סוג רשומת המערכת, לסנן את התוצאות באמצעות מסנן מבוסס-היבטים ולהגדיר את השדה type בתוך ההיבט dataform-code-asset לערך DATA_PREPARATION. לאחר מכן, בוחרים רשומה של הכנת הנתונים שנבחרה. הוראות להצגת הפרטים של סוג רשומה נבחר מופיעות במאמר הצגת הפרטים של סוג רשומה בתיעוד של Dataplex Universal Catalog. הוראות להצגת הפרטים של רשומה נבחרת מופיעות במאמר הצגת הפרטים של רשומה בתיעוד של Dataplex Universal Catalog.
סוג ההיבט של המערכת
סוג ההיבט של המערכת להכנת נתונים הוא dataform-code-asset. כדי לספק הקשר נוסף להכנת נתונים ב-Dataplex Universal Catalog באמצעות הוספת הערות לרשומות של הכנת נתונים עם מאפיינים, צריך להציג את סוג המאפיין dataform-code-asset, לסנן את התוצאות באמצעות מסנן מבוסס-מאפיינים ולהגדיר את השדה type בתוך המאפיין dataform-code-asset לערך DATA_PREPARATION. הוראות להוספת הערות להיבטים של רשומות מופיעות במאמר ניהול היבטים והעשרת מטא-נתונים במסמכי התיעוד של Dataplex Universal Catalog.
סוג
הסוג של לוחות ציור של נתונים הוא DATA_PREPARATION. הסוג הזה מאפשר לכם לסנן את ההכנות של הנתונים בdataform-code-assetסוג הרשומה במערכת ובdataform-code-assetסוג ההיבט באמצעות השאילתה aspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATIONבמסנן מבוסס-היבטים.

הוראות לחיפוש נכסים מופיעות במאמר חיפוש נכסי נתונים ב-Dataplex Universal Catalog במסמכי התיעוד של Dataplex Universal Catalog.

המאמרים הבאים