מעקב אחרי יומנים של Knowledge Catalog

במאמר הזה מוסבר איך לגשת ליומנים של Knowledge Catalog (לשעבר Dataplex Universal Catalog), לשלוח אליהם שאילתות ולפרש אותם באמצעות Cloud Logging. גישה ליומני העבודות ויומני השירותים של Knowledge Catalog עוזרת לכם לפתור בעיות ולעקוב אחרי פעילויות של ניהול נתונים, כולל גילוי נתונים מבוסס-AI וסריקה של איכות הנתונים. ריכוז היומנים ב-Logging מאפשר לכם לנתח את ביצועי העבודות, להגדיר התראות על כשלים או על אנומליות ולנתב יומנים לשירותים אחרים כמו BigQuery, לצורך שמירה וניתוח לטווח ארוך. Google Cloud

כדי להבין את העלויות, אפשר לעיין במחירון של Google Cloud Observability.

מידע נוסף על שמירת יומנים זמין במאמר תקופות שמירה של יומנים.

כדי להשבית את כל היומנים או להחריג יומנים מ-Logging, אפשר לעיין במאמר בנושא מסנני החרגה.

הוראות לניתוב יומנים מ-Logging אל Cloud Storage,‏ BigQuery או Pub/Sub מופיעות במאמר סקירה כללית על ניתוב ואחסון.

תרחישים לדוגמה

רישום ביומן של Knowledge Catalog תומך בתרחישי שימוש בתחומים שונים:

  • פתרון בעיות בצינורות נתונים: כשמשימה של Knowledge Catalog לעיבוד נתונים נכשלת, יומני process מספקים הודעות שגיאה מפורטות שעוזרות למהנדסי נתונים לזהות ולפתור בעיות במשימות Spark או במשימות מותאמות אישית.
  • מעקב אחרי איכות הנתונים: חברה שמספקת שירותים פיננסיים יכולה לעקוב אחרי יומני data_quality_scan_rule_result כדי לעקוב אחרי מגמות של איכות הנתונים לאורך זמן, לקבל התראות על ירידה באיכות של נכסי נתונים קריטיים ולספק לרואי חשבון הוכחות לבדיקות של איכות הנתונים לצורך עמידה בדרישות הרגולטוריות.
  • מעקב אחרי העשרת המטא-נתונים: חברה קמעונאית שמשתמשת במשימות ייבוא של מטא-נתונים כדי להעשיר את הקטלוג שלה יכולה להשתמש ביומני metadata_job כדי לוודא שהייבוא מסתיים בהצלחה ושהמערכת מעבדת את כל פריטי המטא-נתונים בצורה נכונה.
  • ביקורת על גילוי נתונים: ארגונים יכולים להשתמש ביומנים של discovery כדי לעקוב אחרי האופן והזמן שבהם מתגלים ונרשמים מקורות נתונים חדשים ב-Knowledge Catalog, וכך לקבל שביל ביקורת לתהליכי צירוף נתונים.

איך פועל רישום ביומן ב-Knowledge Catalog

‫Knowledge Catalog שולח יומנים של פעולות שירות והפעלות של משימות אל Cloud Logging. כל רשומה ביומן מכילה פרטים על הפעולה או העבודה, כמו הסטטוס, שעת ההתחלה ושעת הסיום, המשאבים המשויכים (כמו סריקת נתונים או משימה) והתוצאה. סוגים שונים של פעולות, כמו סריקת נתונים, גילוי, ייבוא מטא-נתונים ועיבוד נתונים, יוצרים סוגים שונים של יומנים שאפשר לשלוח אליהם שאילתות באמצעות logName ב-Logging.

אפשר לגשת ליומנים האלה ולנתח אותם באמצעות Logs Explorer במסוףGoogle Cloud , או לנתב אותם ליעדים אחרים כמו קטגוריות של Cloud Storage או טבלאות של BigQuery כדי לבצע ניתוח נוסף.

גישה ליומני שירות של Knowledge Catalog ב-Logging

Knowledge Catalog מפרסם את יומני השירות הבאים ב-Cloud Logging.

סוג יומן הביקורת שם יומן הביקורת שאילתה אחת (logName) תיאור היומן
יומני אירועים של סריקת נתונים dataplex.googleapis.com/data_scan logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) יומני אירועים של משימות סריקת נתונים שמציינים את מצב המשימה, התוצאות והנתונים הסטטיסטיים
יומנים של תוצאות כללים לסריקת איכות נתונים dataplex.googleapis.com/data_quality_scan_rule_result logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) תוצאות של כללים לסריקת איכות הנתונים במשימה של איכות הנתונים
יומני Discovery dataplex.googleapis.com/discovery logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) התקדמות ועדכונים של Discovery לגבי נכסים באזור
יומני משימות של מטא-נתונים dataplex.googleapis.com/metadata_job logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) יומנים לגבי משימות ייבוא של מטא-נתונים ופריטים לייבוא בקובץ ייבוא המטא-נתונים
יומני תהליכים dataplex.googleapis.com/process logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) הפעלות של משימות שנובעות ממשימות של עיבוד נתונים

מחליפים את מה שכתוב בשדות הבאים:

  • PROJECT_ID: מזהה הפרויקט

כדי לגשת ל-Logging, אפשר להשתמש ב-Logs Explorer בGoogle Cloud מסוף, בפקודות gcloud logging או ב-Logging API.

שאילתות על יומני אירועים של סריקת נתונים

כשמשתמשים ב-Knowledge Catalog כדי ליצור ולהריץ סריקת נתונים, נוצר יומן אירועים של סריקת הנתונים ב-Logging עבור העבודה שמתקבלת.

המסוף

  1. נכנסים לדף Logs Explorer במסוף Google Cloud .

    כניסה לדף Logs Explorer

  2. בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.

  3. לוחצים על התפריט Resource.

  4. בוחרים באפשרות Cloud Dataplex DataScan. לוחצים על אישור.

  5. לוחצים על התפריט שם היומן.

  6. בשדה Search log names (חיפוש שמות יומנים), מזינים dataplex.googleapis.com%2Fdata_scan. בוחרים באפשרות data_scan ולוחצים על אישור.

  7. אופציונלי: כדי לסנן את היומנים לפי מזהה ספציפי של סריקת נתונים או מיקום, מוסיפים את המסננים הבאים לשאילתת היומן:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. לוחצים על Run query.

gcloud

כדי לקרוא את הרשומות ביומן האירועים של סריקת הנתונים, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.

שאילתת יומנים של תוצאות של כללים לסריקת איכות נתונים

כשמשתמשים ב-Knowledge Catalog כדי ליצור ולהריץ סריקה של איכות הנתונים, נוצר יומן רישום של תוצאות כללי הסריקה של איכות הנתונים בענן Logging עבור העבודה שמתקבלת.

המסוף

  1. נכנסים לדף Logs Explorer במסוף Google Cloud .

    כניסה לדף Logs Explorer

  2. בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.

  3. לוחצים על התפריט Resource.

  4. בוחרים באפשרות Cloud Dataplex DataScan. לוחצים על אישור.

  5. לוחצים על התפריט שם היומן.

  6. בשדה Search log names (חיפוש שמות יומנים), מזינים dataplex.googleapis.com%2Fdata_quality_scan_rule_result. בוחרים באפשרות data_quality_scan_rule_result ולוחצים על אישור.

  7. אופציונלי: כדי לסנן את היומנים לפי מזהה ספציפי של סריקת נתונים או מיקום, מוסיפים את המסננים הבאים לשאילתת היומן:

    resource.labels.location="LOCATION"
    resource.labels.datascan_id="DATA_SCAN_ID"
    
  8. לוחצים על Run query.

gcloud

כדי לקרוא את הרשומות ביומן של תוצאות הסריקה של כללי איכות הנתונים, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/DataScan" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
    resource.labels.location=LOCATION AND
    resource.labels.datascan_id=DATA_SCAN_ID'
    --limit 10

REST

כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.

שאילתות ביומני גילוי

כשמשתמשים ב-Knowledge Catalog כדי לגלות נתונים בנכסים, נוצר יומן גילוי ב-Logging.

המסוף

  1. נכנסים לדף Logs Explorer במסוף Google Cloud .

    כניסה לדף Logs Explorer

  2. בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.

  3. לוחצים על התפריט Resource.

  4. בוחרים באפשרות Cloud Dataplex Zone. לוחצים על אישור.

  5. לוחצים על התפריט שם היומן.

  6. בשדה Search log names (חיפוש שמות יומנים), מזינים dataplex.googleapis.com%2Fdiscovery. בוחרים באפשרות גילוי ולוחצים על אישור.

  7. אופציונלי: כדי לסנן את היומנים לפי נכס ספציפי, מוסיפים את המסננים הבאים לשאילתת היומן:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.zone_id="ZONE_ID"
    jsonPayload.assetId="ASSET_ID"
    
  8. לוחצים על Run query.

gcloud

כדי לקרוא את הרשומות ביומן הגילוי, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Zone" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.zone_id=ZONE_ID AND
    jsonPayload.assetId=ASSET_ID'
    --limit 10

REST

כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.

שאילתות לקבלת יומני מטא-נתונים של משימות

כשמריצים משימת ייבוא של מטא-נתונים, נוצרים יומנים של משימות מטא-נתונים ב-Logging.

המסוף

  1. נכנסים לדף Logs Explorer במסוף Google Cloud .

    כניסה לדף Logs Explorer

  2. בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.

  3. לוחצים על התפריט Resource.

  4. בוחרים באפשרות Cloud Dataplex Metadata Job.

  5. אופציונלי: כדי לסנן את היומנים לפי מיקום ספציפי או מזהה משימת מטא-נתונים, בוחרים מיקום או מזהה משימה.

  6. לוחצים על אישור.

  7. לוחצים על התפריט שם היומן.

  8. מקלידים dataplex.googleapis.com%2Fmetadata_job ובוחרים באפשרות metadata_job.

  9. לוחצים על אישור.

gcloud

כדי לקרוא את הרשומות ביומן של משימת המטא-נתונים, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/MetadataJob" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
    resource.labels.location=LOCATION AND
    resource.labels.metadata_job_id=METADATA_JOB_ID
    --limit 10

REST

כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.

יומני תהליכי שאילתות

כשמשתמשים ב-Knowledge Catalog כדי לתזמן ולהריץ משימות, נוצר יומן תהליכים ב-Logging עבור העבודה שמתקבלת.

המסוף

  1. נכנסים לדף Logs Explorer במסוף Google Cloud .

    כניסה לדף Logs Explorer

  2. בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.

  3. לוחצים על התפריט Resource.

  4. בוחרים באפשרות Cloud Dataplex Task (משימה ב-Cloud Dataplex). לוחצים על אישור.

  5. לוחצים על התפריט שם היומן.

  6. בשדה Search log names (חיפוש שמות יומנים), מזינים dataplex.googleapis.com%2Fprocess. בוחרים באפשרות תהליך ולוחצים על אישור.

  7. אופציונלי: כדי לסנן את היומנים למשימה ספציפית, מוסיפים את המסננים הבאים לשאילתת היומן:

    resource.labels.location="LOCATION"
    resource.labels.lake_id="LAKE_ID"
    resource.labels.task_id="TASK_ID"
    
  8. לוחצים על Run query.

gcloud

כדי לקרוא את הרשומות ביומן התהליך, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:

gcloud logging read \
    'resource.type="dataplex.googleapis.com/Task" AND
    logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
    resource.labels.location=LOCATION AND
    resource.labels.lake_id=LAKE_ID AND
    resource.labels.task_id=TASK_ID'
    --limit 10

REST

כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.

המאמרים הבאים