שיקולים לגבי שושלת נתונים

במסמך הזה מפורט מידע על תאימות של שושלת הנתונים והגבלות. הפעלת מעקב אחר מקורות נתונים מתבצעת ברמת הפרויקט ולא ברמת המערכת. המשמעות היא שאחרי שמפעילים את Data Lineage API, אפשר לדווח באופן אוטומטי על מידע על שושלת נתונים עבור כמה מערכות בפרויקט, בהתאם לבקרת השושלת ברמת המוצר של כל מערכת.

מעקב אוטומטי אחר מקורות נתונים נתמך במערכות הבאות:

אמצעי בקרה על שרשרת המקור ברמת המוצר ב Google Cloud מערכות נתמכות
מערכת אמצעי הבקרה הזמינים על שרשרת המקור
‫BigQuery,‏
Cloud Data Fusion
כשמפעילים את Data Lineage API בפרויקט, אי אפשר להגדיר הגבלה של מעקב אחר מקורות נתונים רק ל-Cloud Data Fusion או ל-BigQuery.
Cloud Composer ‫Cloud Composer משתמש בשליטה בשילוב של שושלת נתונים ברמת הסביבה. התכונה 'מקורות נתונים' מופעלת אוטומטית בכל סביבות Cloud Composer החדשות, בתנאי שהן עומדות בדרישות. מידע נוסף מופיע במאמר מעקב אחר מקורות נתונים באמצעות Dataplex Universal Catalog. בסביבות קיימות, אפשר להפעיל או להשבית את השילוב של מעקב אחר מקורות נתונים בהגדרות הסביבה.
Dataflow משימות Dataflow יכולות לתעד אירועי שושלת ולפרסם אותם ב-Data Lineage API. מידע נוסף זמין במאמר בנושא שימוש בתיעוד מקורות הנתונים ב-Dataflow.
Dataproc משימות Dataproc Spark יכולות לתעד אירועים של שרשרת מקורות נתונים ולפרסם אותם ב-Data Lineage API. מידע נוסף זמין במאמר שילוב של Dataproc עם מעקב מקורות נתונים.
Vertex AI התכונה 'מקורות נתונים' מופעלת באופן אוטומטי עבור ארטיפקטים ופרמטרים של Vertex AI, כמו מודלים, מערכי נתונים, תבניות של צינורות עיבוד נתונים ורכיבים. ההיסטוריה של צינור כוללת גורמים שתרמו ליצירה שלו, וגם ארטיפקטים ומטא-נתונים שהתקבלו לאחר מכן. מידע נוסף זמין במאמר מעקב אחר שושלת פריטי המידע שנוצרו בתהליך הפיתוח של צינורות.

השפעה על החיוב

כשמפעילים את Data Lineage API בפרויקט, חשוב לבדוק את ההשפעה על חיובים, כי Data Lineage API מופעל על בסיס כל פרויקט (פרטים מופיעים בקטע הקודם). מידע נוסף על חיובים על שושלת הנתונים זמין במאמר בנושא תמחור של Dataplex Universal Catalog.

ב-BigQuery Omni, עיבוד שרשרת המקורות מבוזר לאזורים ספציפיים, והעלויות תלויות באזורים שבהם מתבצע העיבוד.

תאימות של שושלת הנתונים

  • שושלת הנתונים מתעדת מטא-נתונים לגבי תנועת הנתונים, אבל לא מתעדת את הנתונים עצמם. לפרטים על השדות שכלולים במטא-נתונים, אפשר לעיין במודל המידע של Data Lineage ובהפניית API של Data Lineage.
  • השירות 'מקורות נתונים' כחלק מ-Dataplex Universal Catalog מציע תמיכה ב-VPC-SC.
  • ב-Dataplex Universal Catalog אין אפשרות להשתמש במפתחות הצפנה בניהול הלקוח כדי להגן על מטא-נתונים של שושלת הנתונים שנאספו.

מגבלות של שושלת הנתונים

כשבוחרים צומת בתרשים השושלת, חלונית הצד של פרטי הצומת תהיה ריקה במקרים הבאים:

  1. המשאבים נמצאים בארגון אחר, או
  2. המשתמש לא חבר בארגון שמארח את המשאב.