מערכות אקולוגיות של נתונים הופכות למורכבות יותר ויותר, ולכן יישומי AI צריכים יותר מסתם גישה לנתונים גולמיים. הם צריכים הקשר עסקי. Knowledge Catalog הוא התפתחות של Dataplex, והוא מתמקד בהעצמת מערכות AI ואגנטיות.
בבסיס הפלטפורמה הזו, יש מיפוי מאוחד שמקשר בין נכסי הנתונים הפיזיים שלכם לבין סמנטיקה עסקית, כללי ניהול ויחסי שימוש. שילוב של Knowledge Catalog בתהליכי העבודה שלכם עם AI מאפשר לכם:
לעגן סוכני AI במטא-נתונים מהימנים, עדכניים והקשריים כדי להנחות את החשיבה הרציונלית של הסוכן.
לצמצם את ההזיות ולהבטיח שהמודלים הגנרטיביים יתבססו בתשובות שלהם על נתונים מהימנים של הארגון.
לספק הקשר מאוחד – תצוגה מנוהלת יחידה של סביבת הנתונים – לסוכני AI.
תרחישים לדוגמה
ל-Knowledge Catalog יש תפקידים שונים לאורך מחזור החיים של הנתונים וה-AI:
מפתחי AI ויוצרי סוכנים. מפתחים שיוצרים בוטים או סוכנים בהתאמה אישית (לדוגמה, באמצעות LangChain או הערכה לפיתוח סוכנים (ADK)) שצריכים לשלוח שאילתות לנתונים ארגוניים ולהבין אותם.
- תרחישי שימוש: חיפוש בשפה טבעית ואחזור של הקשר כדי לאפשר לסוכנים לעבוד עם נתונים ארגוניים; גילוי נתונים אג'נטי.
מנתחי נתונים. משתמשים בכלים מבוססי-AI כמו Gemini ב-BigQuery או ב-Looker כדי למצוא נתונים ולהבין את המשמעות העסקית שלהם.
- תרחישים לדוגמה: שאילתות בשפה טבעית וניתוח נתונים שיחתי.
אחראים על נתונים. מומחים בתחום שמפקחים על העשרת המטא-נתונים באמצעות AI ומוודאים את איכות ההקשר של הקטלוג.
- תרחישים לדוגמה: בדיקה, אוצרות וקידום של מטא-נתונים ותיאורים שנוצרו על ידי AI.
גישה להקשר של Knowledge Catalog באמצעות MCP
Model Context Protocol (MCP) הוא גשר סטנדרטי שמאפשר לסוכני AI ולכלים להתחבר בצורה חלקה למקורות נתונים כמו Knowledge Catalog.
כדי להתאים את עצמו לתהליכי עבודה שונים של פריסה, Knowledge Catalog מציע שני סוגים של הטמעות MCP. כדי להגדיר את הסביבה שלכם, חשוב להבין מתי להשתמש בכל אחת מהאפשרויות:
שרת MCP מרוחק: כשמפתחים אפליקציות מבוססות-ענן, כשפורסים סוכנים בסביבות ללא שרת (כמו Cloud Run) או כשמשלבים עם שירותים מנוהלים חיצוניים שבהם רוצים להימנע מניהול תשתית מקומית.
Local MCP Toolbox: במהלך פיתוח סוכן מקומי, יצירת אב טיפוס מהיר או כשצריך שילוב ישיר עם סביבות פיתוח משולבות (IDE) מקומיות למחשב כמו VS Code או Cursor.
שרת MCP מרוחק
נקודת קצה שמתארחת ב-Google ומאפשרת גישה ישירה לכלים של Knowledge Catalog לאפליקציות ולשירותי AI (לדוגמה, סוכנים שפועלים ב-Cloud Run או שירותים חיצוניים כמו Claude).
- נקודת קצה (endpoint):
https://dataplex.googleapis.com/mcp - יתרונות: אין צורך להריץ שרת MCP מקומי, מתאים לסביבות ללא שרתים.
- הפניה: שימוש בשרת MCP מרוחק
ערכת הכלים המקומית של MCP
כלי לשורת פקודה שפועל כשרת proxy מקומי בין סביבת הפיתוח המשולבת (IDE) (לדוגמה, VS Code, Cursor) או כלים מקומיים לבין Knowledge Catalog.
- התקנה: קובץ בינארי להורדה.
- הגדרה: בדרך כלל כוללת קובץ
.mcp.jsonאו קובץ הגדרות בהגדרות של הפרויקט או של סביבת הפיתוח המשולבת (IDE). - יתרונות: מתאים לסביבות פיתוח מאובטחות מקומיות ולשילוב עם סביבות פיתוח משולבות (IDE) שונות.
- הפניה: שימוש בשרת MCP מקומי
הוספת הקשר ל-Knowledge Catalog
כדי למקסם את הערך של Knowledge Catalog ל-AI, התרשים הבסיסי צריך להיות עשיר בהקשר עסקי. אפשר לעשות את זה באמצעות תכונות מוכנות לשימוש או באמצעות העשרה מותאמת אישית של סוכנים.
העשרה מוכנה מראש באמצעות תובנות לגבי נתונים
תובנות לגבי נתונים (מבוססות על Gemini ב-BigQuery) מעשירות את הקטלוג באופן אוטומטי, וכך מצמצמות את בעיית ה'הפעלה במצב התחלתי (cold start)' בפלטפורמות נתונים חדשות. כשהתכונה הזו מופעלת, המערכת יוצרת באופן אוטומטי את הפריטים הבאים:
- תיאורים ברמת מערך הנתונים והעמודה.
- גרפים של קשרים בין טבלאות.
- דוגמאות לשאילתות שמבוססות על דפוסי שימוש היסטוריים.
כך סוכנים במורד הזרם מקבלים מיד הבנה סמנטית בלי שנדרש ניהול ידני של הנתונים.
לדוגמה, עבור טבלה בשם telco_churn, התובנות לגבי הנתונים יכולות ליצור באופן אוטומטי תיאורים לשדות כמו Tenure ו-MonthlyCharges, להסיק קשרים לטבלאות של לקוחות ולפרסם שאילתה לדוגמה, כמו חיפוש שיעורי נטישה לפי פלח, בקטלוג.
העשרה של ההקשר בהתאמה אישית באמצעות סוכנים
בארגונים עם מאגרי ידע מיוחדים, אפשר ליצור סוכני העשרה בהתאמה אישית כדי להזין מטא-נתונים ממקורות ייחודיים כמו ויקי פנימי, מאגרי קוד או מערכות קנייניות.
Knowledge Catalog APIs (פעולות CRUD): משמשים להוספה או לעדכון של מטא-נתונים בקטלוג.
- לדוגמה, אפשר לקרוא לשיטת
UpdateEntryAPI כדי לצרף באופן פרוגרמטי היבט של סקירה כללית לטבלה באמצעות תיעוד שחולץ ממערכת פנימית.
- לדוגמה, אפשר לקרוא לשיטת
כלים כמו ADK: משמשים ליצירת סוכני העשרה.
- לדוגמה, אפשר ליצור סוכן ADK מבוסס-Java שמשתמש בכלים פנימיים כדי לחלץ דפי ויקי טכניים, משתמש ב-LLM כדי לנתח אותם למונחי מילון מונחים ומסנכרן את המונחים עם Knowledge Catalog.
פעולות ייצוא וייבוא: משמשות לעדכונים בכמות גדולה של מטא נתונים עם אפשרות לבדיקה.
- לדוגמה, אפשר לייצא מילון המונחים הארגוני שנוצר על ידי AI לקובץ, לאפשר למנהלי נתונים לבדוק ולשפר את ההגדרות בשיתוף פעולה, ואז לייבא את הקובץ הסופי בחזרה לקטלוג.