שאלות נפוצות על Knowledge Catalog

במסמך הזה מפורטות תשובות לכמה מהשאלות הנפוצות בנושא Knowledge Catalog (לשעבר Dataplex Universal Catalog).

מידע נוסף על Knowledge Catalog זמין במאמר סקירה כללית על Knowledge Catalog.

מה זה Knowledge Catalog?

‫Google Knowledge Catalog הוא פתרון חכם לניהול נכסי נתונים ו-AI ב- Google Cloud. הוא מספק מלאי מרכזי שבו אפשר לגלות, לנהל ולשלוט בנתונים במקורות נתונים כמו BigQuery,‏ Cloud Storage,‏ Pub/Sub ו-Spanner. Google Cloud הוא משתמש ב-AI כדי להפוך את גילוי הנתונים, העשרת המטא-נתונים ואיכות הנתונים לאוטומטיים. באמצעות קטלוג הנתונים המנוהל שלו, Knowledge Catalog מספק את הבסיס החיוני שסוכני AI צריכים כדי ליצור תוכן באיכות גבוהה.

מהו קטלוג נתונים?

‫Data Catalog היה השם המקורי של שירות המטא-נתונים של Google Cloud. עם הזמן הוא התפתח ל-Dataplex Universal Catalog, ועכשיו הוא נקרא Knowledge Catalog.

המונח 'קטלוג נתונים' עדיין משמש לתיאור של סוג כזה של אינדקס נתונים, אבל בהקשר של Google Cloud, הוא מתייחס למוצר מדור קודם. מומלץ להשתמש ב-Knowledge Catalog בכל הפרויקטים החדשים כדי ליהנות מתכונות מבוססות-AI ומניהול משופר.

האם יש הבדל בין Knowledge Catalog לבין Data Catalog?

כן, Knowledge Catalog היא פלטפורמה לניהול נתונים מבוססת-AI, שתחליף בסופו של דבר את Data Catalog הקיים. הם מבוססים על אותם מושגים, אבל ב-Knowledge Catalog יש כמה שיפורים:

  • הקשר מבוסס-AI: בניגוד ל-Data Catalog, ב-Knowledge Catalog נעשה שימוש ב-Gemini כדי לחלץ באופן אוטומטי הקשר עסקי, ליצור תיאורים בשפה טבעית ולספק 'שאילתות מוזהבות' של SQL כדי להנחות סוכני AI.

  • תמיכה במטא-נתונים עשירים: Knowledge Catalog תומך בסוגים מורכבים יותר של מטא-נתונים, כמו מערכים מקוננים, מיפויים ורשומות.

  • גישה באמצעות סוכנים: סוכני AI יכולים לגלות ולהשתמש בכלים של Knowledge Catalog באופן אדפטיבי דרך שרת MCP מקומי או מרוחק.

  • חיפוש נתונים: Knowledge Catalog יכול לבצע באופן אוטומטי איסוף של מטא-נתונים ממערך גדול יותר של Google Cloud שירותים וממקורות נתונים חיצוניים.

  • משילות בהיקף נרחב: הפלטפורמה מציעה יכולות משופרות ליצירת פרופיל נתונים, לאיכות נתונים אוטומטית ולמשילות מרכזית.

למה משמש Knowledge Catalog?

Knowledge Catalog של Google פותר את בעיית הנתונים של 'הפעלה במצב התחלתי (cold start)' – הזמן שמבוזבז בניסיון למצוא נתונים, להבין אותם ולסמוך עליהם לפני שאפשר להשתמש בהם בפועל. השימושים העיקריים שלו כוללים:

  • גילוי נתונים מהיר יותר: במקום לנווט במאגרי מידע מורכבים של הארגון כדי לאתר נתונים, אפשר להשתמש בחיפוש בשפה טבעית (לדוגמה, 'הצגת נתוני נטישת הלקוחות האחרונים') כדי למצוא נכסים במקורות מידע שלGoogle Cloud באופן מיידי, וכך לשפר את הפרודוקטיביות של צרכני הנתונים.

  • הארקה של סוכני AI: הוא משמש כ "מקור האמת" ל-AI גנרטיבי או ל-ADK. הקישור בין נתונים פיזיים להגדרות עסקיות מבטיח שסוכני AI (כמו אלה שמבוססים על Vertex AI) ישתמשו בנתונים באיכות גבוהה, וכך יפחיתו באופן משמעותי את ההזיות של ה-AI וישפרו את האמון בתובנות שמבוססות על AI.

  • משילות נתונים אוטומטית: המערכת סורקת את הנתונים באופן אוטומטי כדי לזהות מידע רגיש (כמו פרטים אישיים מזהים), עוקבת אחרי המקור של הנתונים (שיוך) ועוקבת אחרי הדיוק שלהם (איכות נתונים אוטומטית). היכולות האלה עוזרות לשפר את האמינות, האבטחה והתאימות של הנתונים, בלי להשקיע מאמץ ידני רב.

  • גילוי 'נתונים אפלים': אפשר לסרוק קבצים לא מובנים (כמו קובצי PDF או תמונות ב-Cloud Storage), לחלץ את המידע שבהם ולאפשר חיפוש ושליפה שלו ב-BigQuery. כך אפשר להפיק תובנות מנתונים שלא הייתה גישה אליהם בעבר.

תרחישים לדוגמה לשימוש מעשי זמינים במאמר הכרת Knowledge Catalog.

אילו סוגים של מטא-נתונים מאוחסנים ב-Knowledge Catalog?

ב-Knowledge Catalog נשמרים שלושה סוגים של מטא-נתונים:

  • מטא-נתונים טכניים: סכימות, שמות טבלאות ומאפייני מערכת שנאספים אוטומטית.

  • מטא-נתונים עסקיים: הקשר שהמשתמש מגדיר, כמו תיאורי עסקים, מונחים במילון מונחים ובעלות.

  • מטא-נתונים בזמן ריצה: מידע על שושלת נתונים, ציוני איכות נתונים ונתונים סטטיסטיים של פרופיל נתונים.

איך מעבירים נתונים מקטלוג הנתונים?

המעבר לקטלוג הידע נועד להיות חלק, בלי שיהיה צורך בהעברה ידנית של נתונים. בהתאם לשימוש הנוכחי שלכם, התהליך כולל שני שלבים עיקריים:

  • שלב ההכנה: אם יש לכם מטא נתונים מותאמים אישית (תגים, תבניות תגים או רשומות מותאמות אישית), התוכן הזה יועבר באופן אוטומטי ל-Knowledge Catalog כתוכן לקריאה בלבד. במהלך השלב הזה, מבצעים משימות הגדרה כדי שהתוכן הקיים בקטלוג הנתונים יהיה זמין בו-זמנית בממשק החדש.

  • שלב ההעברה: אחרי ההכנה, מעבירים את המצב הפעיל של המטא-נתונים כדי שיהיה אפשר לקרוא ולכתוב אותם ב-Knowledge Catalog. צריך לתאם את השלב הזה עם עדכון של עומסי עבודה תוכנתיים (ממשקי API, ספריות לקוח או מודולי Terraform) כך שיצביעו על נקודות הקצה החדשות של Knowledge Catalog.

אם אין לכם מטא-נתונים מותאמים אישית או אם אתם חדשים בפלטפורמה, תוכלו להשלים את המעבר על ידי הגדרת ממשק המשתמש של קטלוג הידע כברירת מחדל ב Google Cloud מסוף.

מידע נוסף זמין במאמר מעבר מ-Data Catalog ל-Knowledge Catalog.