במאמר הזה מוסבר איך לגשת ליומנים של Knowledge Catalog (לשעבר Dataplex Universal Catalog), לשלוח אליהם שאילתות ולפרש אותם באמצעות Cloud Logging. גישה ליומני העבודות ויומני השירותים של Knowledge Catalog עוזרת לכם לפתור בעיות ולעקוב אחרי פעילויות של ניהול נתונים, כולל גילוי נתונים מבוסס-AI וסריקה של איכות הנתונים. ריכוז היומנים ב-Logging מאפשר לכם לנתח את ביצועי העבודות, להגדיר התראות על כשלים או על אנומליות ולנתב יומנים לשירותים אחרים כמו BigQuery, לצורך שמירה וניתוח לטווח ארוך. Google Cloud
כדי להבין את העלויות, אפשר לעיין במחירון של Google Cloud Observability.
מידע נוסף על שמירת יומנים זמין במאמר תקופות שמירה של יומנים.
כדי להשבית את כל היומנים או להחריג יומנים מ-Logging, אפשר לעיין במאמר בנושא מסנני החרגה.
הוראות לניתוב יומנים מ-Logging אל Cloud Storage, BigQuery או Pub/Sub מופיעות במאמר סקירה כללית על ניתוב ואחסון.
תרחישים לדוגמה
רישום ביומן של Knowledge Catalog תומך בתרחישי שימוש בתחומים שונים:
- פתרון בעיות בצינורות נתונים: כשמשימה של Knowledge Catalog לעיבוד נתונים נכשלת, יומני
processמספקים הודעות שגיאה מפורטות שעוזרות למהנדסי נתונים לזהות ולפתור בעיות במשימות Spark או במשימות מותאמות אישית. - מעקב אחרי איכות הנתונים: חברה שמספקת שירותים פיננסיים יכולה לעקוב אחרי יומני
data_quality_scan_rule_resultכדי לעקוב אחרי מגמות של איכות הנתונים לאורך זמן, לקבל התראות על ירידה באיכות של נכסי נתונים קריטיים ולספק לרואי חשבון הוכחות לבדיקות של איכות הנתונים לצורך עמידה בדרישות הרגולטוריות. - מעקב אחרי העשרת המטא-נתונים: חברה קמעונאית שמשתמשת במשימות ייבוא של מטא-נתונים כדי להעשיר את הקטלוג שלה יכולה להשתמש ביומני
metadata_jobכדי לוודא שהייבוא מסתיים בהצלחה ושהמערכת מעבדת את כל פריטי המטא-נתונים בצורה נכונה. - ביקורת על גילוי נתונים: ארגונים יכולים להשתמש ביומנים של
discoveryכדי לעקוב אחרי האופן והזמן שבהם מתגלים ונרשמים מקורות נתונים חדשים ב-Knowledge Catalog, וכך לקבל שביל ביקורת לתהליכי צירוף נתונים.
איך פועל רישום ביומן ב-Knowledge Catalog
Knowledge Catalog שולח יומנים של פעולות שירות והפעלות של משימות אל Cloud Logging. כל רשומה ביומן מכילה פרטים על הפעולה או העבודה, כמו הסטטוס, שעת ההתחלה ושעת הסיום, המשאבים המשויכים (כמו סריקת נתונים או משימה) והתוצאה. סוגים שונים של פעולות, כמו סריקת נתונים, גילוי, ייבוא מטא-נתונים ועיבוד נתונים, יוצרים סוגים שונים של יומנים שאפשר לשלוח אליהם שאילתות באמצעות logName ב-Logging.
אפשר לגשת ליומנים האלה ולנתח אותם באמצעות Logs Explorer במסוףGoogle Cloud , או לנתב אותם ליעדים אחרים כמו קטגוריות של Cloud Storage או טבלאות של BigQuery כדי לבצע ניתוח נוסף.
גישה ליומני שירות של Knowledge Catalog ב-Logging
Knowledge Catalog מפרסם את יומני השירות הבאים ב-Cloud Logging.
| סוג יומן הביקורת | שם יומן הביקורת | שאילתה אחת (logName) |
תיאור היומן |
|---|---|---|---|
| יומני אירועים של סריקת נתונים | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
יומני אירועים של משימות סריקת נתונים שמציינים את מצב המשימה, התוצאות והנתונים הסטטיסטיים |
| יומנים של תוצאות כללים לסריקת איכות נתונים | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
תוצאות של כללים לסריקת איכות הנתונים במשימה של איכות הנתונים |
| יומני Discovery | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
התקדמות ועדכונים של Discovery לגבי נכסים באזור |
| יומני משימות של מטא-נתונים | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
יומנים לגבי משימות ייבוא של מטא-נתונים ופריטים לייבוא בקובץ ייבוא המטא-נתונים |
| יומני תהליכים | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
הפעלות של משימות שנובעות ממשימות של עיבוד נתונים |
מחליפים את מה שכתוב בשדות הבאים:
- PROJECT_ID: מזהה הפרויקט
כדי לגשת ל-Logging, אפשר להשתמש ב-Logs Explorer בGoogle Cloud מסוף, בפקודות gcloud logging או ב-Logging API.
שאילתות על יומני אירועים של סריקת נתונים
כשמשתמשים ב-Knowledge Catalog כדי ליצור ולהריץ סריקת נתונים, נוצר יומן אירועים של סריקת הנתונים ב-Logging עבור העבודה שמתקבלת.
המסוף
נכנסים לדף Logs Explorer במסוף Google Cloud .
בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.
לוחצים על התפריט Resource.
בוחרים באפשרות Cloud Dataplex DataScan. לוחצים על אישור.
לוחצים על התפריט שם היומן.
בשדה Search log names (חיפוש שמות יומנים), מזינים
dataplex.googleapis.com%2Fdata_scan. בוחרים באפשרות data_scan ולוחצים על אישור.אופציונלי: כדי לסנן את היומנים לפי מזהה ספציפי של סריקת נתונים או מיקום, מוסיפים את המסננים הבאים לשאילתת היומן:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
לוחצים על Run query.
gcloud
כדי לקרוא את הרשומות ביומן האירועים של סריקת הנתונים, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.
שאילתת יומנים של תוצאות של כללים לסריקת איכות נתונים
כשמשתמשים ב-Knowledge Catalog כדי ליצור ולהריץ סריקה של איכות הנתונים, נוצר יומן רישום של תוצאות כללי הסריקה של איכות הנתונים בענן Logging עבור העבודה שמתקבלת.
המסוף
נכנסים לדף Logs Explorer במסוף Google Cloud .
בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.
לוחצים על התפריט Resource.
בוחרים באפשרות Cloud Dataplex DataScan. לוחצים על אישור.
לוחצים על התפריט שם היומן.
בשדה Search log names (חיפוש שמות יומנים), מזינים
dataplex.googleapis.com%2Fdata_quality_scan_rule_result. בוחרים באפשרות data_quality_scan_rule_result ולוחצים על אישור.אופציונלי: כדי לסנן את היומנים לפי מזהה ספציפי של סריקת נתונים או מיקום, מוסיפים את המסננים הבאים לשאילתת היומן:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
לוחצים על Run query.
gcloud
כדי לקרוא את הרשומות ביומן של תוצאות הסריקה של כללי איכות הנתונים, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.
שאילתות ביומני גילוי
כשמשתמשים ב-Knowledge Catalog כדי לגלות נתונים בנכסים, נוצר יומן גילוי ב-Logging.
המסוף
נכנסים לדף Logs Explorer במסוף Google Cloud .
בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.
לוחצים על התפריט Resource.
בוחרים באפשרות Cloud Dataplex Zone. לוחצים על אישור.
לוחצים על התפריט שם היומן.
בשדה Search log names (חיפוש שמות יומנים), מזינים
dataplex.googleapis.com%2Fdiscovery. בוחרים באפשרות גילוי ולוחצים על אישור.אופציונלי: כדי לסנן את היומנים לפי נכס ספציפי, מוסיפים את המסננים הבאים לשאילתת היומן:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
לוחצים על Run query.
gcloud
כדי לקרוא את הרשומות ביומן הגילוי, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.
שאילתות לקבלת יומני מטא-נתונים של משימות
כשמריצים משימת ייבוא של מטא-נתונים, נוצרים יומנים של משימות מטא-נתונים ב-Logging.
המסוף
נכנסים לדף Logs Explorer במסוף Google Cloud .
בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.
לוחצים על התפריט Resource.
בוחרים באפשרות Cloud Dataplex Metadata Job.
אופציונלי: כדי לסנן את היומנים לפי מיקום ספציפי או מזהה משימת מטא-נתונים, בוחרים מיקום או מזהה משימה.
לוחצים על אישור.
לוחצים על התפריט שם היומן.
מקלידים
dataplex.googleapis.com%2Fmetadata_jobובוחרים באפשרות metadata_job.לוחצים על אישור.
gcloud
כדי לקרוא את הרשומות ביומן של משימת המטא-נתונים, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.
יומני תהליכי שאילתות
כשמשתמשים ב-Knowledge Catalog כדי לתזמן ולהריץ משימות, נוצר יומן תהליכים ב-Logging עבור העבודה שמתקבלת.
המסוף
נכנסים לדף Logs Explorer במסוף Google Cloud .
בתצוגה של Logs Explorer, מחפשים את הכרטיסייה שאילתה.
לוחצים על התפריט Resource.
בוחרים באפשרות Cloud Dataplex Task (משימה ב-Cloud Dataplex). לוחצים על אישור.
לוחצים על התפריט שם היומן.
בשדה Search log names (חיפוש שמות יומנים), מזינים
dataplex.googleapis.com%2Fprocess. בוחרים באפשרות תהליך ולוחצים על אישור.אופציונלי: כדי לסנן את היומנים למשימה ספציפית, מוסיפים את המסננים הבאים לשאילתת היומן:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
לוחצים על Run query.
gcloud
כדי לקרוא את הרשומות ביומן התהליך, משתמשים בפקודה gcloud logging read עם השאילתה הבאה:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
כדי להציג את הרשומות ביומן, משתמשים בשיטה entries.list.