שימוש ב-data lineage עם מערכות Google Cloud

אפשר להציג את שושלת הנתונים כדי להבין את הקשרים בין המשאבים של הפרויקט לבין התהליכים שיצרו אותם. הקשרים האלה מראים איך נכסי נתונים, כמו טבלאות ומערכי נתונים, עוברים טרנספורמציה בתהליכים כמו שאילתות וצינורות נתונים. במדריך הזה מוסבר איך לגשת לתרשימי שושלת ב-Dataplex Universal Catalog, ב-BigQuery וב-Vertex AI.

אפשר לראות את הפרטים של שרשרת מקורות הנתונים ב Google Cloud מסוף או לאחזר אותם באמצעות Data Lineage API.

תפקידים והרשאות

התכונה 'מקורות נתונים' עוקבת אחרי פרטי המקורות באופן אוטומטי כשמפעילים את Data Lineage API. לא צריך הרשאות אדמין או עריכה כדי לתעד את מקורות הנתונים של נכסי הנתונים.

כדי לראות את שרשרת מקורות הנתונים, אתם צריכים הרשאות ספציפיות לניהול זהויות והרשאות גישה (IAM). פרטי השושלת נאספים בכל הפרויקטים, ולכן צריך הרשאות בכמה פרויקטים.

  • כשמציגים את היסטוריית השינויים ב-Dataplex Universal Catalog, ב-BigQuery או ב-Vertex AI: אתם צריכים הרשאות להצגת פרטים על היסטוריית השינויים בפרויקט שבו אתם מציגים אותה.

  • כשצופים בנתוני שושלת שנרשמו בפרויקטים אחרים: צריך הרשאות לצפייה בנתוני שושלת בפרויקטים שבהם הם נרשמו.

כדי לקבל את ההרשאות שדרושות בשביל להציג את היסטוריית הנתונים, אתם צריכים לבקש מהאדמין לתת לכם את תפקידי ה-IAM הבאים:

  • Data Lineage Viewer (roles/datalineage.viewer) בפרויקט שבו מתועד שרשרת המקורות, ובפרויקט שבו מוצגת שרשרת המקורות
  • צפייה בפרטי הטבלה ב-BigQuery: ‫BigQuery Data Viewer (roles/bigquery.dataViewer) בפרויקט האחסון של הטבלה
  • צפייה בפרטי משימה ב-BigQuery: BigQuery Resource Viewer (roles/bigquery.resourceViewer) בפרויקט החישוב של המשימה
  • הצגת פרטים של נכסים אחרים בקטלוג: Dataplex Catalog Viewer (roles/dataplex.catalogViewer) בפרויקט שבו מאוחסנים רשומות הקטלוג

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לצפייה בנתוני שושלת. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי לראות את מקורות הנתונים, צריך את ההרשאות הבאות:

  • הצגת פרטים של טבלה ב-BigQuery: bigquery.tables.get – פרויקט האחסון של הטבלה
  • הצגת פרטי המשימה ב-BigQuery: bigquery.jobs.get - פרויקט החישוב של המשימה

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

התכונה 'מקורות נתונים' עוקבת אחרי פרטי המקורות באופן אוטומטי כשמפעילים את Data Lineage API. לא צריך הרשאות אדמין או עריכה כדי לתעד את מקורות הנתונים של נכסי הנתונים.

סוגים של תצוגות של שרשרת מקורות הנתונים

אפשר לראות את פרטי שרשרת המקור כתרשים או כרשימה. כברירת מחדל, בתרשים של שרשרת המקורות מוצגת שרשרת מקורות ברמת הטבלה. במשימות של BigQuery, אפשר לראות את שרשרת המקור ברמת העמודה בתצוגת גרף ובתצוגת רשימה.

אלה סוגי התצוגות שזמינים:

  • תצוגת גרף: מציגה את שרשרת המקור כגרף אינטראקטיבי, שמאפשר לכם להרחיב צמתים כדי לבחון את הקשרים בין נכסי נתונים ועמודות.

  • תצוגת רשימה: מציגה את היסטוריית השינויים בפורמט טבלאי, ומספקת ייצוגים פשוטים ומפורטים של היסטוריית השינויים ברמת הטבלה וברמת העמודה. אתם יכולים להתאים אישית את העמודות ולייצא נתוני שושלת מהתצוגה הזו.

הרכיבים העיקריים בתרשים מתוארים כך:

  • צמתים: מייצגים את ישויות הנתונים. בתצוגה ברמת הטבלה, צומת מציג את שם הטבלה והעמודות שלה. בתצוגה ברמת העמודה, כל צומת מייצג טבלה ספציפית ואת העמודות שלה שיש להן קשר לנתונים.

  • קשתות: הקווים שמחברים בין הצמתים ומייצגים את התהליכים שמתרחשים ביניהם. בצדדים יכולים להופיע סמלים או תוויות כדי לספק מידע נוסף על השינוי:

    • Icons: בתצוגה ברמת הטבלה, סמלים מופיעים בקצוות כדי לייצג את תהליך השינוי. כשבודקים את הגרף באופן ידני, הסמלים בקצוות מייצגים את מערכת המקור של התהליך (לדוגמה, BigQuery או Vertex AI). אם יש כמה תהליכים, מוצג סמל של 'כמה תהליכים'. אם המערכת לא מצליחה לזהות את מערכת המקור של התהליך, מוצג סמל של גלגל שיניים. כשמחילים מסננים, סמל גלגל השיניים משמש לכל התהליכים.
    • תוויות: בתצוגה ברמת העמודה, הקצוות מתויגים כדי לתאר את סוג התלות בין העמודות, כמו Exact copy או Other.

הפעלת מעקב אחר מקורות נתונים

מפעילים את מעקב מקורות הנתונים כדי להתחיל לעקוב אוטומטית אחרי מידע על מקורות נתונים במערכות נתמכות. כברירת מחדל, הפעלת ה-API מפעילה מעקב אחר מקורות נתונים ברוב השירותים הנתמכים. כדי לשלוט בהטמעת שושלת הנתונים ב-Dataproc, אפשר לעיין במאמר בנושא שליטה בהטמעת שושלת נתונים בשירות.

צריך להפעיל את Data Lineage API גם בפרויקט שבו צופים ב-lineage וגם בפרויקטים שבהם מתועד ה-lineage. מידע נוסף זמין במאמר סוגי פרויקטים.

  1. כדי לתעד את פרטי השושלת:
    1. בדף Project selector במסוף Google Cloud , בוחרים את הפרויקט שבו רוצים לתעד את היסטוריית השינויים.

      כניסה לדף לבחירת הפרויקט

    2. מפעילים את Data Lineage API.

      הפעלת Data Lineage API

    3. חוזרים על השלבים הקודמים לכל פרויקט שבו רוצים להקליט את היסטוריית השינויים.
  2. בפרויקט שבו רוצים לראות את שרשרת המקור, מפעילים את Data Lineage API ואת Dataplex API.

    הפעלת ממשקי ה-API

שליטה בהטמעה של היסטוריית השימוש בשירות

אחרי שמפעילים את Data Lineage API, השירות מתחיל לעקוב אחרי מקורות נתונים באופן אוטומטי ברוב השירותים הנתמכים. לאחר מכן תוכלו להפעיל או להשבית באופן סלקטיבי את ההטמעה של היסטוריית השינויים בשילובים ספציפיים ברמת הפרויקט, התיקייה או הארגון. במהלך תקופת הטרום-השקה, התכונה הזו תומכת רק בהגדרת הטמעה של Dataproc. אם משביתים את ההטמעה של נתוני השושלת ב-Dataproc, היא מושבתת גם ב-Dataproc Serverless ל-Apache Spark.

ההגדרות האישיות הן היררכיות. ההגדרה הספציפית ביותר מקבלת עדיפות. לדוגמה, הגדרה ברמת הפרויקט מבטלת הגדרה ברמת התיקייה. אם לא מוגדרת הגדרה, המערכת משתמשת בהתנהגות ברירת המחדל של השירות. ב-Dataproc, ברירת המחדל היא מופעל.

יכול להיות שיחלפו עד 24 שעות עד שהשינויים בהגדרות יתעדכנו, אבל בדרך כלל הם מתעדכנים תוך שעתיים.

ב-Dataproc וב-Dataproc Serverless for Apache Spark, נתוני שושלת נשלחים רק אם השושלת מופעלת גם ב-Dataproc. מידע נוסף זמין במאמרים בנושא Dataproc Spark lineage ו-Dataproc Serverless for Apache Spark data lineage.

מידע נוסף על שליטה בהטמעת שושלת, כולל הסבר על אופן היישום ההיררכי של ההגדרה, זמין במאמר שליטה בהטמעת שושלת.

דרישות מוקדמות

כדי לשלוט בהטמעה של שרשרת מקורות הנתונים, צריך להשתמש ב-Data Lineage API. צריך לוודא שיש לכם פרויקט לקוח שמוגדר לחיוב ולמכסה, כי Data Lineage API הוא API שמבוסס על לקוח.

  1. מפעילים את datalineage.googleapis.com API בפרויקט הלקוח. מידע נוסף זמין במאמר בנושא הפעלת שושלת נתונים.

  2. מגדירים את פרויקט הלקוח. בדוגמאות הבאות משתמשים בכותרת X-Goog-User-Project. מידע נוסף זמין במאמר בנושא פרמטרים של המערכת.

אחזור של התצורה הנוכחית

כדי לראות את הגדרת שרשרת המקורות הנוכחית, משתמשים בשיטה projects.locations.config.get. אפשר לאחזר את ההגדרה של פרויקט, תיקייה או ארגון.

בדוגמה הבאה אפשר לראות איך מקבלים את ההגדרה של פרויקט:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X GET \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config"

מחליפים את הערכים הבאים:

  • CLIENT_PROJECT_ID: המזהה של פרויקט הלקוח שמשמש לחיוב או למכסות.
  • PROJECT_ID: מזהה הפרויקט שרוצים להציג את ההגדרה שלו.

כדי לקבל את ההגדרה של תיקייה או ארגון, מחליפים את projects/PROJECT_ID ב-folders/FOLDER_ID או ב-organizations/ORGANIZATION_ID.

הפקודה מחזירה את אחד מהפלט הבא:

  • אם לא מוגדרת תצורה, הפלט יכלול אובייקט ingestion ריק:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {}
      }
      

    במקרה כזה, הטמעת שושלת הנתונים ב-Dataproc משתמשת בהגדרת ברירת המחדל, שהיא enabled.

  • אם הפעלתם באופן מפורש את הטמעת השושלת של Dataproc, תקבלו את הפלט הבא:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {
          "rules": [
            {
              "integrationSelector": {
                "integration": "DATAPROC"
              },
              "lineageEnablement": {
                "enabled": true
              }
            }
          ]
        },
        "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
      }
      
  • אם השבתתם את ההטמעה של שושלת הנתונים ב-Dataproc, תקבלו את הפלט הבא:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {
          "rules": [
            {
              "integrationSelector": {
                "integration": "DATAPROC"
              },
              "lineageEnablement": {
                "enabled": false
              }
            }
          ]
        },
        "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
      }
      

השדה etag בתגובה הוא סכום ביקורת שנוצר על ידי השרת על סמך הערך הנוכחי של ההגדרה. כשמעדכנים הגדרה באמצעות השיטה patch, אפשר לכלול בגוף הבקשה את הערך etag שהוחזר מבקשת get מהזמן האחרון. אם מספקים את etag,‏ Dataplex Universal Catalog משתמש בו כדי לוודא שההגדרה לא השתנתה מאז בקשת הקריאה האחרונה. אם יש אי התאמה, בקשת העדכון נכשלת. כך לא יקרה ששינויים שתבצעו יחליפו בטעות הגדרות שמשתמשים אחרים ביצעו בתרחישים של קריאה-שינוי-כתיבה. אם לא תספקו etag בבקשת patch, Dataplex Universal Catalog ידרוס את ההגדרה ללא תנאי.

השבתת הטמעת שושלת נתונים בשירות

כדי להשבית את ההטמעה של שושלת הנתונים בשירות ספציפי, צריך להשתמש בשיטה projects.locations.config.patch עם כלל הטמעה שמגדיר את lineageEnablement.enabled ל-false עבור integration ספציפי.

כדי למנוע החלפה לא מכוונת של הגדרות שמשתמשים אחרים יצרו בתרחישים של קריאה-שינוי-כתיבה, אפשר לכלול את השדה etag בגוף הבקשה. מידע נוסף מופיע במאמר בנושא קבלת ההגדרה הנוכחית.

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X PATCH \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config" \
     --data-binary @- << EOF
{
  "ingestion": {
    "rules": [{
      "integrationSelector": {
        "integration": "DATAPROC"
      },
      "lineageEnablement": {
        "enabled": false
      }
    }]
  },
  "etag": "ETAG"
}
EOF

מחליפים את מה שכתוב בשדות הבאים:

  • CLIENT_PROJECT_ID: המזהה של פרויקט הלקוח שמשמש לחיוב או למכסות.
  • PROJECT_ID: מזהה הפרויקט שרוצים לעדכן את ההגדרה שלו.
  • ETAG: הערך של etag שהוחזר מבקשת get עדכנית.

כדי להשבית את ההטמעה של שירות בתיקייה או בארגון, מחליפים את projects/PROJECT_ID ב-folders/FOLDER_ID או ב-organizations/ORGANIZATION_ID.

הפעלת הטמעה של היסטוריית השימוש בשירות

כדי להפעיל את ההטמעה של נתוני שושלת עבור שירות ספציפי, צריך להשתמש בשיטה projects.locations.config.patch עם כלל הטמעה שמגדיר את lineageEnablement.enabled ל-true עבור integration ספציפי.

כדי למנוע החלפה לא מכוונת של הגדרות שמשתמשים אחרים יצרו בתרחישים של קריאה-שינוי-כתיבה, אפשר לכלול את השדה etag בגוף הבקשה. מידע נוסף מופיע במאמר בנושא קבלת ההגדרה הנוכחית.

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X PATCH \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config" \
     --data-binary @- << EOF
{
  "ingestion": {
    "rules": [{
      "integrationSelector": {
        "integration": "DATAPROC"
      },
      "lineageEnablement": {
        "enabled": true
      }
    }]
  },
  "etag": "ETAG"
}
EOF

מחליפים את מה שכתוב בשדות הבאים:

  • CLIENT_PROJECT_ID: המזהה של פרויקט הלקוח שמשמש לחיוב או למכסות.
  • PROJECT_ID: מזהה הפרויקט שרוצים לעדכן את ההגדרה שלו.
  • ETAG: הערך של etag שהוחזר מבקשת get עדכנית.

כדי להפעיל את ההטמעה של שושלת הנתונים של שירות בתיקייה או בארגון, מחליפים את projects/PROJECT_ID ב-folders/FOLDER_ID או ב-organizations/ORGANIZATION_ID.

הצגת שרשרת המקור ב-Dataplex Universal Catalog

אפשר לראות את המידע על השתלשלות הנתונים בממשק האינטרנט של Dataplex Universal Catalog.

כדי לראות את שרשרת המקור, פועלים לפי ההוראות הבאות:

  1. במסוף Google Cloud , עוברים לדף Search של Dataplex Universal Catalog.

    לחיפוש Google

  2. בוחרים באפשרות Dataplex Universal Catalog כמצב החיפוש.

  3. מחפשים את הרשומה שרוצים להציג ולוחצים עליה. מידע נוסף זמין במאמר חיפוש משאבים ב-Dataplex Universal Catalog.

  4. לוחצים על הכרטיסייה Lineage (היסטוריה).

    תצוגת הגרף תיפתח כברירת מחדל, ותציג את שרשרת המידע ברמת הטבלה במערכות ובאזורים שונים. מידע נוסף זמין במאמר בנושא תצוגת גרף של שרשרת היוחסין.

  5. כדי לבחון את תרשים השושלת באופן ידני, לוחצים על הרחבה לצד צומת כדי לטעון עוד חמישה צמתים בכל פעם.

    מידע נוסף זמין במאמר בנושא בדיקה ידנית של גרף שרשרת המקורות.

  6. לוחצים על צומת בתצוגה Graph.

    ייפתח החלונית פרטים עם מידע על הנכס, כמו שם מלא וסוג. מידע נוסף זמין במאמר פרטי הצומת.

  7. לוחצים על קצה עם סמל של תהליך בתצוגה Graph.

    החלונית שאילתה תיפתח. מידע נוסף זמין במאמרים בנושא בדיקת לוגיקת הטרנספורמציה וביקורת והיסטוריה של הרצות.

    • כדי לבדוק את הלוגיקה של הטרנספורמציה, לוחצים על הכרטיסייה פרטים.

    • כדי לראות את הביקורת ואת היסטוריית ההרצות, לוחצים על הכרטיסייה Runs (הרצות).

  8. בחלונית Lineage explorer, בוחרים קריטריוני סינון – לדוגמה, Direction,‏ Dependency type או Time range – ואז לוחצים על Apply.

    תיפתח תצוגה ממוקדת באזור ספציפי (גרסת Preview). בתצוגה הזו, התרשים מתרחב אוטומטית עד לשלוש רמות של צמתים. מידע נוסף זמין במאמר החלת מסננים לתצוגה ממוקדת של שרשרת מקורות הנתונים.

  9. בתצוגה הממוקדת Graph, בוחרים צומת, ואז בחלונית הפרטים של הצומת לוחצים על Visualize Path כדי להציג את נתיב השושלת מהצומת שנבחר בחזרה אל רשומת הבסיס (רק בתצוגה הממוקדת).

    מידע נוסף זמין במאמר בנושא הדמיה של נתיב שרשרת היוחסין.

  10. כדי לראות את השושלת ברמת העמודה (רק לעבודות BigQuery), מבצעים אחת מהפעולות הבאות:

    • בתצוגת תרשים ממוקדת, לוחצים על סמל העמודה בטבלה.
      הסמל שמשמש למעבר לנתוני שושלת ברמת העמודה.
      סמל העמודה
    • בחלונית Lineage explorer (כלי לבדיקת מקורות נתונים), מסננים לפי שם העמודה ולוחצים על Apply (החלה).

    מידע נוסף זמין במאמר בנושא Column-level lineage (היסטוריה ברמת העמודה).

  11. לוחצים על איפוס.

    הפעולה הזו מסירה את כל המסננים שהופעלו ומעבירה אתכם לתחילת תצוגת הגרף.

  12. לוחצים על רשימה כדי לעבור לתצוגת הרשימה.

    בתצוגה רשימה מוצגות טבלאות פשוטות ומפורטות של שושלת הנתונים ברמת הטבלה וברמת העמודה, והיא מסונכרנת עם התצוגה גרף. כברירת מחדל, מוצגת תצוגת רשימה פשוטה, ואפשר לעבור לתצוגת רשימה מפורטת כדי לנתח קשרים בין מקורות ליעדים. אתם יכולים להגדיר אילו עמודות יוצגו ולייצא נתוני שושלת. מידע נוסף זמין במאמר בנושא תצוגת רשימת מקורות הנתונים.

הצגת שרשרת מקורות המידע ב-BigQuery

אפשר לראות את פרטי שרשרת המקורות בממשק האינטרנט של BigQuery.

כדי לראות את שרשרת המקור, פועלים לפי ההוראות הבאות:

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    פתיחת הדף של BigQuery

  2. פותחים את הטבלה שרוצים לראות את שרשרת המקורות שלה.

  3. לוחצים על הכרטיסייה Lineage (היסטוריה).

    תצוגת הגרף תיפתח כברירת מחדל, ותציג את שרשרת המידע ברמת הטבלה במערכות ובאזורים שונים. מידע נוסף זמין במאמר בנושא תצוגת גרף של שרשרת היוחסין.

  4. כדי לבחון את תרשים השושלת באופן ידני, לוחצים על הרחבה לצד צומת כדי לטעון עוד חמישה צמתים בכל פעם.

    מידע נוסף זמין במאמר בנושא בדיקה ידנית של גרף שרשרת המקורות.

  5. לוחצים על צומת בתצוגה Graph.

    ייפתח החלונית פרטים עם מידע על הנכס, כמו שם מלא וסוג. מידע נוסף זמין במאמר פרטי הצומת.

  6. לוחצים על קצה עם סמל של תהליך בתצוגה Graph.

    החלונית שאילתה תיפתח. מידע נוסף זמין במאמרים בנושא בדיקת לוגיקת הטרנספורמציה וביקורת והיסטוריה של הרצות.

    • כדי לבדוק את הלוגיקה של הטרנספורמציה, לוחצים על הכרטיסייה פרטים.

    • כדי לראות את הביקורת ואת היסטוריית ההרצות, לוחצים על הכרטיסייה Runs (הרצות).

  7. בחלונית Lineage explorer, בוחרים קריטריוני סינון – לדוגמה, Direction,‏ Dependency type או Time range – ואז לוחצים על Apply.

    תיפתח תצוגה ממוקדת באזור ספציפי (גרסת Preview). בתצוגה הזו, התרשים מתרחב אוטומטית עד לשלוש רמות של צמתים. מידע נוסף זמין במאמר החלת מסננים לתצוגה ממוקדת של שרשרת מקורות הנתונים.

  8. בתצוגה הממוקדת Graph, בוחרים צומת, ואז בחלונית הפרטים של הצומת לוחצים על Visualize Path כדי להציג את נתיב השושלת מהצומת שנבחר בחזרה אל רשומת הבסיס (רק בתצוגה הממוקדת).

    מידע נוסף זמין במאמר בנושא הדמיה של נתיב שרשרת היוחסין.

  9. כדי לראות את השושלת ברמת העמודה (רק לעבודות BigQuery), מבצעים אחת מהפעולות הבאות:

    • בתצוגת תרשים ממוקדת, לוחצים על סמל העמודה בטבלה.
      הסמל שמשמש למעבר לנתוני שושלת ברמת העמודה.
      סמל העמודה
    • בחלונית Lineage explorer (כלי לבדיקת מקורות נתונים), מסננים לפי שם העמודה ולוחצים על Apply (החלה).

    מידע נוסף זמין במאמר בנושא Column-level lineage (היסטוריה ברמת העמודה).

  10. לוחצים על איפוס.

    הפעולה הזו מסירה את כל המסננים שהופעלו ומעבירה אתכם לתחילת תצוגת הגרף.

  11. לוחצים על רשימה כדי לעבור לתצוגת הרשימה.

    בתצוגה רשימה מוצגות טבלאות פשוטות ומפורטות של שושלת הנתונים ברמת הטבלה וברמת העמודה, והיא מסונכרנת עם התצוגה גרף. כברירת מחדל, מוצגת תצוגת רשימה פשוטה, ואפשר לעבור לתצוגת רשימה מפורטת כדי לנתח קשרים בין מקורות ליעדים. אתם יכולים להגדיר אילו עמודות יוצגו ולייצא נתוני שושלת. מידע נוסף זמין במאמר בנושא תצוגת רשימת מקורות הנתונים.

צפייה ב-lineage ב-Vertex AI

מערכות כמו Vertex AI Pipelines יוצרות נתוני שושלת עבור מודלים ומערכי נתונים של Vertex AI. אפשר לראות את פרטי שרשרת המקורות בממשק האינטרנט של Vertex AI.

הצגת שרשרת מקורות נתונים של מערך נתונים מנוהל ב-Vertex AI

כדי לראות את שרשרת המקורות של מערך נתונים, פועלים לפי ההוראות הבאות:

  1. נכנסים לדף Datasets במסוף Google Cloud .

    כניסה לדף Datasets

  2. לוחצים על מערך הנתונים שרוצים לראות את שרשרת המקורות שלו.

  3. לוחצים על הכרטיסייה Lineage (היסטוריה).

    תצוגת הגרף תיפתח כברירת מחדל, ותציג את שרשרת המידע ברמת הטבלה במערכות ובאזורים שונים. מידע נוסף זמין במאמר בנושא תצוגת גרף של שרשרת היוחסין.

  4. כדי לבחון את תרשים השושלת באופן ידני, לוחצים על הרחבה לצד צומת כדי לטעון עוד חמישה צמתים בכל פעם.

    מידע נוסף זמין במאמר בנושא בדיקה ידנית של גרף שרשרת המקורות.

  5. לוחצים על צומת בתצוגה Graph.

    ייפתח החלונית פרטים עם מידע על הנכס, כמו שם מלא וסוג. מידע נוסף זמין במאמר פרטי הצומת.

  6. לוחצים על קצה עם סמל של תהליך בתצוגה Graph.

    החלונית שאילתה תיפתח. מידע נוסף זמין במאמרים בנושא בדיקת לוגיקת הטרנספורמציה וביקורת והיסטוריה של הרצות.

    • כדי לבדוק את הלוגיקה של הטרנספורמציה, לוחצים על הכרטיסייה פרטים.

    • כדי לראות את הביקורת ואת היסטוריית ההרצות, לוחצים על הכרטיסייה Runs (הרצות).

  7. בחלונית Lineage explorer, בוחרים קריטריוני סינון – לדוגמה, Direction,‏ Dependency type או Time range – ואז לוחצים על Apply.

    תיפתח תצוגה ממוקדת באזור ספציפי (גרסת Preview). בתצוגה הזו, התרשים מתרחב אוטומטית עד לשלוש רמות של צמתים. מידע נוסף זמין במאמר החלת מסננים לתצוגה ממוקדת של שרשרת מקורות הנתונים.

  8. בתצוגה הממוקדת Graph, בוחרים צומת, ואז בחלונית הפרטים של הצומת לוחצים על Visualize Path כדי להציג את נתיב השושלת מהצומת שנבחר בחזרה אל רשומת הבסיס (רק בתצוגה הממוקדת).

    מידע נוסף זמין במאמר בנושא הדמיה של נתיב שרשרת היוחסין.

  9. כדי לראות את השושלת ברמת העמודה (רק לעבודות BigQuery), מבצעים אחת מהפעולות הבאות:

    • בתצוגת תרשים ממוקדת, לוחצים על סמל העמודה בטבלה.
      הסמל שמשמש למעבר לנתוני שושלת ברמת העמודה.
      סמל העמודה
    • בחלונית Lineage explorer (כלי לבדיקת מקורות נתונים), מסננים לפי שם העמודה ולוחצים על Apply (החלה).

    מידע נוסף זמין במאמר בנושא Column-level lineage (היסטוריה ברמת העמודה).

  10. לוחצים על איפוס.

    הפעולה הזו מסירה את כל המסננים שהופעלו ומעבירה אתכם לתחילת תצוגת הגרף.

  11. לוחצים על רשימה כדי לעבור לתצוגת הרשימה.

    בתצוגה רשימה מוצגות טבלאות פשוטות ומפורטות של שושלת הנתונים ברמת הטבלה וברמת העמודה, והיא מסונכרנת עם התצוגה גרף. כברירת מחדל, מוצגת תצוגת רשימה פשוטה, ואפשר לעבור לתצוגת רשימה מפורטת כדי לנתח קשרים בין מקורות ליעדים. אתם יכולים להגדיר אילו עמודות יוצגו ולייצא נתוני שושלת. מידע נוסף זמין במאמר בנושא תצוגת רשימת מקורות הנתונים.

הצגת שושלת של מודל ב-Vertex AI

כדי לראות את שרשרת המקור של מודל, פועלים לפי ההוראות הבאות:

  1. במסוף Google Cloud , נכנסים לדף מרשם המודלים.

    פתיחת הדף מרשם המודלים

  2. לוחצים על המודל שרוצים לראות את שרשרת המקורות שלו.

  3. לוחצים על הכרטיסייה Lineage (היסטוריה).

    תצוגת הגרף תיפתח כברירת מחדל, ותציג את שרשרת המידע ברמת הטבלה במערכות ובאזורים שונים. מידע נוסף זמין במאמר בנושא תצוגת גרף של שרשרת היוחסין.

  4. כדי לבחון את תרשים השושלת באופן ידני, לוחצים על הרחבה לצד צומת כדי לטעון עוד חמישה צמתים בכל פעם.

    מידע נוסף זמין במאמר בנושא בדיקה ידנית של גרף שרשרת המקורות.

  5. לוחצים על צומת בתצוגה Graph.

    ייפתח החלונית פרטים עם מידע על הנכס, כמו שם מלא וסוג. מידע נוסף זמין במאמר פרטי הצומת.

  6. לוחצים על קצה עם סמל של תהליך בתצוגה Graph.

    החלונית שאילתה תיפתח. מידע נוסף זמין במאמרים בנושא בדיקת לוגיקת הטרנספורמציה וביקורת והיסטוריה של הרצות.

    • כדי לבדוק את הלוגיקה של הטרנספורמציה, לוחצים על הכרטיסייה פרטים.

    • כדי לראות את הביקורת ואת היסטוריית ההרצות, לוחצים על הכרטיסייה Runs (הרצות).

  7. בחלונית Lineage explorer, בוחרים קריטריוני סינון – לדוגמה, Direction,‏ Dependency type או Time range – ואז לוחצים על Apply.

    תיפתח תצוגה ממוקדת באזור ספציפי (גרסת Preview). בתצוגה הזו, התרשים מתרחב אוטומטית עד לשלוש רמות של צמתים. מידע נוסף זמין במאמר החלת מסננים לתצוגה ממוקדת של שרשרת מקורות הנתונים.

  8. בתצוגה הממוקדת Graph, בוחרים צומת, ואז בחלונית הפרטים של הצומת לוחצים על Visualize Path כדי להציג את נתיב השושלת מהצומת שנבחר בחזרה אל רשומת הבסיס (רק בתצוגה הממוקדת).

    מידע נוסף זמין במאמר בנושא הדמיה של נתיב שרשרת היוחסין.

  9. כדי לראות את השושלת ברמת העמודה (רק לעבודות BigQuery), מבצעים אחת מהפעולות הבאות:

    • בתצוגת תרשים ממוקדת, לוחצים על סמל העמודה בטבלה.
      הסמל שמשמש למעבר לנתוני שושלת ברמת העמודה.
      סמל העמודה
    • בחלונית Lineage explorer (כלי לבדיקת מקורות נתונים), מסננים לפי שם העמודה ולוחצים על Apply (החלה).

    מידע נוסף זמין במאמר בנושא Column-level lineage (היסטוריה ברמת העמודה).

  10. לוחצים על איפוס.

    הפעולה הזו מסירה את כל המסננים שהופעלו ומעבירה אתכם לתחילת תצוגת הגרף.

  11. לוחצים על רשימה כדי לעבור לתצוגת הרשימה.

    בתצוגה רשימה מוצגות טבלאות פשוטות ומפורטות של שושלת הנתונים ברמת הטבלה וברמת העמודה, והיא מסונכרנת עם התצוגה גרף. כברירת מחדל, מוצגת תצוגת רשימה פשוטה, ואפשר לעבור לתצוגת רשימה מפורטת כדי לנתח קשרים בין מקורות ליעדים. אתם יכולים להגדיר אילו עמודות יוצגו ולייצא נתוני שושלת. מידע נוסף זמין במאמר בנושא תצוגת רשימת מקורות הנתונים.

המאמרים הבאים