סקירה כללית של Knowledge Catalog

‫Knowledge Catalog הוא קטלוג נתונים מבוסס-Gemini שמספק הקשר עסקי אוניברסלי וניהול לכלל נכסי הנתונים שלכם. הוא מחלץ באופן אוטומטי סמנטיקה מנתונים מובנים ולא מובנים, ויוצר גרף הקשר דינמי שמבסס סוכני AI על Enterprise Truth ומפחית הזיות. צוותי נתונים ומפתחי AI משתמשים ב-Knowledge Catalog כדי לגלות נתונים, לאכוף מדיניות ולאחזר הקשר עשיר לניתוח ולאפליקציות אוטונומיות. בסרטון המוטמע אפשר לראות הסבר מפורט על Knowledge Catalog.

‫Dataplex Universal Catalog נקרא עכשיו Knowledge Catalog

כדי לשקף טוב יותר את החזון של איחוד ניהול הנתונים עם יכולות של AI גנרטיבי, Dataplex Universal Catalog נקרא עכשיו Knowledge Catalog. השינוי בשם המוצר מייצג מעבר ממאגר נתונים פסיבי רגיל של מטא-נתונים לגרף הקשר פעיל מבוסס-AI.

למה Dataplex הפך ל-Knowledge Catalog

ככל שהארגונים מאיצים את ההטמעה של AI גנרטיבי, סוכני AI צריכים הקשר עסקי מעמיק כדי לספק תשובות מדויקות ומבוססות. Knowledge Catalog מגשר על הפער בין ניהול נתונים ארגוני לבין תהליכי עבודה של סוכני AI.

מה ההבדל בין Dataplex לבין Knowledge Catalog

העדכונים ב-Knowledge Catalog משקפים יכולות חדשות שמבוססות על AI. בניגוד לקטלוגים פסיביים רגילים, Knowledge Catalog אוסף באופן אוטומטי מטא-נתונים, לוגיקה עסקית ויחסי נתונים לגרף הקשר מאוחד. הגרף הזה מספק את ה-Enterprise Truth האמינה שהסוכנים של AI צריכים כדי להריץ משימות מורכבות בצורה מדויקת. הוא משתמש בתכונות כמו אוצרות הקשר אוטומטי, שאילתות לדוגמה מאומתות ושילובים מקומיים ומרוחקים של Model Context Protocol ‏ (MCP).

מה לא ישתנה

הפריסות, ממשקי ה-API וההגדרות הקיימים של Dataplex ממשיכים לפעול. תכונות הליבה כמו גילוי נתונים, שושלת, איכות נתונים ומילוני מונחים עסקיים לא משתנות ונתמכות. המטא-נתונים, ההיבטים וההגדרות הקיימים עוברים לממשק החדש של Knowledge Catalog ללא העברה ידנית, העברת נתונים או השבתה.

ממשקי API וספריות לקוח

המיתוג מחדש ל-Knowledge Catalog לא משנה את נקודות הקצה הקיימות של ה-API, את הפקודות או את ספריות הלקוח.gcloud dataplex אתם יכולים להמשיך להשתמש בממשקי Knowledge Catalog API ובספריות הלקוח כדי ליצור אינטראקציה עם Knowledge Catalog:

איך Knowledge Catalog עובד

Knowledge Catalog מאחד את הממשל וההקשר באמצעות שלושה עקרונות מרכזיים:

  • בסיס לממשל. ‫Knowledge Catalog אוסף באופן אוטומטי מטא-נתונים טכניים משירותים כמו BigQuery,‏ AlloyDB ל-PostgreSQL ו-Spanner, וגם ממערכות של צד שלישי. Google Cloud הוא יוצר בסיס נתונים מהימן באמצעות מילון המונחים הארגוני מרכזי, בדיקות של איכות הנתונים, זיהוי אנומליות ומשילות מבוססת-מדיניות.

  • התאמת ההקשר. באמצעות Gemini, השירות מסיק את הכוונות העסקיות על ידי ניתוח סכימות, יומני שאילתות ומודלים סמנטיים בנתונים שלכם. הוא יוצר תיאורים בשפה טבעית, מגלה קשרים ומציע דפוסי SQL מאומתים בצורה של שאילתות לדוגמה שמציגות לוגיקה עסקית מורכבת.

  • אחזור הקשר. סוכני AI ואפליקציות יכולים לגלות נכסים באופן מיידי ולאחזר הקשר מועשר באמצעות חיפוש סמנטי וכלים שתומכים ב-Model Context Protocol‏ (MCP). כך סוכנים יכולים לגשת לנתונים הארגוניים כדי לקבל החלטות מהימנות.

הדיאגרמה הבאה ממחישה את הארכיטקטורה של Knowledge Catalog ואיך הוא מאחד בין משילות מידע (data governance) לבין תהליכי עבודה של בינה מלאכותית גנרטיבית:

ארכיטקטורה של Knowledge Catalog שבה מוצג תהליך האוצרות של מטא-נתונים, לוגיקה עסקית ויחסי נתונים לגרף הקשר מאוחד עבור סוכני AI. ארכיטקטורה של Knowledge Catalog שבה מוצג תהליך האוצרות של מטא-נתונים, לוגיקה עסקית ויחסי נתונים לגרף הקשר מאוחד עבור סוכני AI.
איור 1. ארכיטקטורה של Knowledge Catalog (לחצו כדי להגדיל)

תרחישים נפוצים לדוגמה

‫Knowledge Catalog עוזר למהנדסי נתונים, למדעני נתונים ולמפתחי AI לפתור אתגרים שקשורים לניהול נתונים ולפיתוח AI:

  • העשרת נתונים ל-AI. אפשר להשתמש בתובנות לגבי נתונים לא מובְנים כדי לחלץ באופן אוטומטי מטא-נתונים וישויות מקבצים לא מובְנים כמו קובצי PDF ב-Cloud Storage. כך מודלים של AI יכולים לגשת לנתונים לא פעילים ולידע ארגוני.

  • מפחיתים הזיות של AI. מספקים לסוכני AI שאילתות לדוגמה שעברו אימות מראש ומגבלות סמנטיות, כדי לאפשר להם לבצע אחזור נתונים מורכב ברמת דיוק גבוהה יותר.

  • האצת גילוי הנתונים. שימוש בחיפוש סמנטי ובגרף הקשר המרכזי כדי לאתר נכסי נתונים רלוונטיים במקורות שונים לצורך ניתוח ותהליכי עבודה של מדעי הנתונים.

  • יצירה אוטומטית של מוצרי נתונים. הסקת קשרים בין הנתונים בנכסי הנתונים שלכם כדי לארוז נכסים במוצרי נתונים עצמאיים עם הסכמי רמת שירות (SLA) מובנים ומגבלות ניהול.

דוגמאות לתהליכי עבודה ב-Knowledge Catalog

כדי להבין איך אפשר ליצור את תרשים ההקשר ולנהל את נכסי הנתונים, כדאי לעיין בדוגמה הבאה שממחישה איך חברת קמעונאות אונליין יכולה להשתמש בתכונות הבאות של Knowledge Catalog:

  • גילוי וקטלוג של נתונים.הקמעונאי מבצע באופן אוטומטי המרה של נתוני עסקאות ומאסף מטא-נתונים משירותי Google Cloud כמו BigQuery,‏ Pub/Sub ו-Cloud Storage. השירות גם מייבא מטא-נתונים ממסדי נתונים מותאמים אישית של מלאי כדי ליצור תצוגה מאוחדת של כל נכסי הנתונים הקמעונאיים. למידע נוסף, ראו גילוי נתונים.

  • חיפוש נכסי נתונים מדען נתונים מוצא את נכסי נתוני הלקוחות שהוא צריך באמצעות מנוע החיפוש של Knowledge Catalog עם סינון לפי מאפיינים, חיפוש סמנטי בשפה טבעית ואופרטורים לוגיים. מידע נוסף מופיע במאמר חיפוש נכסי נתונים.

  • העשרת הנתונים בהקשר עסקי. צוות ניהול הנתונים מגדיר מונחים מעולם הקמעונאות (כמו 'ערך חיי המשתמש' או 'מק"ט') באמצעות מילוני מונחים עסקיים, ומשתמש בתובנות מבוססות-AI כדי ליצור באופן אוטומטי תיאורים לטבלאות מוצרים חדשות. הם גם מוסיפים באופן ידני מטא-נתונים מובְנים ותגים (היבטים) מותאמים אישית באופן אחיד לכל הנכסים שלהם. מידע נוסף זמין במאמרים ניהול היבטים והוספת מטא-נתונים וניהול מילון המונחים הארגוני.

  • הבנת הקשרים בין נתונים באמצעות שושלת נתונים. צוות ההנדסה עוקב באופן אוטומטי אחר שרשרת מקורות הנתונים כדי לראות איך נתוני ההזמנות עוברים, איך הם משתנים ואיך הם נצרכים במערכות שלהם. הם משתמשים בגרפים של שושלת נתונים כדי לפתור בעיות בפייפליינים של דיווח, לבצע ניתוח של שורש הבעיה בשגיאות בתהליך התשלום ולהבטיח תאימות. מידע נוסף זמין במאמר סקירה כללית על שרשרת מקורות הנתונים.

  • נתוני הפרופיל ומדידת האיכות הקמעונאי משתמש בפרופיל נתונים אוטומטי כדי לזהות דפוסים וחריגות בטבלאות התמחור שלו ב-BigQuery. הם מגדירים ומריצים בדיקות של איכות הנתונים כדי לוודא שהכתובות למשלוח של הלקוחות מדויקות, מלאות ומהימנות עבור עומסי עבודה של AI ושל מילוי הזמנות בהמשך. מידע נוסף זמין במאמרים סקירה כללית על פרופיל נתונים וסקירה כללית על איכות נתונים אוטומטית.

  • יצירה ושיתוף של מוצרי נתונים. הצוות של פלטפורמת הנתונים אורז נכסי מכירות אזוריים ואת המטא-נתונים, ציוני האיכות והשיוך שלהם למוצרי נתונים מסוג 'תצוגה של 360 מעלות של הלקוח' שנאספו ונצרכו על ידי צוותי השיווק והמלאי. מידע נוסף זמין במאמר סקירה כללית על מוצרי נתונים.

Knowledge Catalog בסביבת Google Cloud העבודה

כשמקימים בסיס נתונים, חשוב להבין איך Knowledge Catalog משתלב עם שירותים קשורים:Google Cloud

שירות תפקיד ראשי מתי משתמשים
Knowledge Catalog הקשר של סוכן ומשילות מידע (data governance) השירות משמש לקטלוג מטא-נתונים, לניהול איכות הנתונים ולספק בסיס סמנטי לסוכני AI.
BigQuery מחסן נתונים ארגוני השימוש ב-BigQuery מאפשר לאחסן, להריץ שאילתות ולנתח מערכי נתונים עצומים. Knowledge Catalog מעשיר את הנתונים ב-BigQuery בהקשר עסקי.
Vertex AI פלטפורמה ל-AI ולמידת מכונה השירות משמש לבנייה ולפריסה של מודלים של למידת מכונה וסוכני AI. הסוכנים משתמשים בממשקי Knowledge Catalog API כדי לאחזר הקשר מדויק של הארגון.
Cloud Storage אחסון של נתונים לא מובנים משמש לאחסון קובצי RAW. ‫Knowledge Catalog סורק קטגוריות של Cloud Storage כדי לחלץ מטא-נתונים וישויות שאפשר לחפש.

מושגי ליבה

כדי להשתמש ביעילות ב-Knowledge Catalog, חשוב להבין את המושגים המרכזיים הבאים:

  • תרשים הקשרים. מפה דינמית ומאוחדת שמציגה את הקשר בין הנתונים לעסק שלכם. הוא מקשר בין סכימות טכניות לבין ישויות עסקיות וידע לא מובנה.

  • שאילתות לדוגמה דפוסי SQL מאומתים שנוצרו מראש וכוללים לוגיקה עסקית מורכבת. השאילתות האלה מאפשרות גם לבני אדם וגם לסוכני AI לשאול שאילתות על נתונים בצורה מדויקת בלי ליצור מחדש איחודים מורכבים של טבלאות.

  • Model Context Protocol‏ (MCP). תקן פתוח שמאפשר לסוכני AI לגלות כלים זמינים ולהשתמש בהם בצורה מותאמת. ב-Knowledge Catalog נעשה שימוש בכלי MCP כדי להציג לסוכנים נתונים מאומתים של הארגון ישירות, והוא מציע שרתי MCP מקומיים ומרוחקים כדי להתאים לדרישות הנגישות והאבטחה.

-- Example: An example query retrieved by an AI agent to ensure accurate revenue calculation
SELECT customer_id, SUM(transaction_amount) AS total_revenue
FROM `sales.processed_transactions`
WHERE transaction_status = 'COMPLETED'
GROUP BY customer_id;

הטמעות נתונים

מערכת Knowledge Catalog מעכלת באופן אוטומטי מטא-נתונים מהGoogle Cloud מקורות הבאים. בשירותים מסוימים, כמו AlloyDB ל-PostgreSQL ו-Cloud SQL, צריך קודם להפעיל את השילוב עם Knowledge Catalog כדי שאפשר יהיה להטמיע מטא-נתונים:

  • Analytics ו-lakehouse

    • מערכי נתונים, טבלאות, תצוגות, מודלים, שגרות, חיבורים ומערכי נתונים מקושרים ב-BigQuery
    • שיתוף ב-BigQuery (לשעבר Analytics Hub) – חילופי נתונים ורישומים
    • מאגרי Dataform ונכסי קוד
    • שירותים, מסדי נתונים וטבלאות של Dataproc Metastore
    • טבלאות של קטלוג REST של Iceberg (כולל Google Cloud קטלוג זמן ריצה של Lakehouse IRC,‏ Databricks Unity IRC,‏ AWS Glue Data Catalog IRC ו-Snowflake Horizon IRC)

  • AI ולמידת מכונה

    • מודלים, מערכי נתונים, קבוצות תכונות, תצוגות תכונות ומופעים של חנות וירטואלית ב-Vertex AI
  • בינה עסקית

    • מכונות, מרכזי בקרה, רכיבים של מרכזי בקרה, תצוגות, פרויקטים של LookML, מודלים, ניתוחים ותצוגות ב-Looker (Google Cloud Core)‎ (תצוגה מקדימה)
  • מסדי נתונים

    • מופעים, אשכולות וטבלאות של Bigtable (כולל פרטים על משפחות עמודות)
    • מכונות, מסדי נתונים, טבלאות ותצוגות של Spanner
  • סטרימינג והעברת הודעות

    • נושאים ב-Pub/Sub
  • נתונים לא מובְנים

  • מסדי נתונים תפעוליים

כדי לייבא מטא-נתונים ממקור של צד שלישי אל Knowledge Catalog, אפשר להשתמש בצינור קישוריות מנוהל. מידע נוסף מופיע במאמר סקירה כללית על קישוריות מנוהלת.

מגבלות

כשמתכננים את הפריסה, חשוב לקחת בחשבון את המגבלות הבאות:

  • שילובים נתמכים. אמנם Knowledge Catalog תומך במערכות עיקריות של צד שלישי, אבל יכול להיות שחלק מהחילוצים הסמנטיים האוטומטיים יוגבלו לשירותים מובנים Google Cloud .

  • מגבלות מכסה. המכסות הרגילות של Google Cloud API חלות על פעולות של אחזור הקשר וחילוץ מטא-נתונים.

המאמרים הבאים