מאגרי נתונים

מאגרי נתונים משמשים את הכלים למאגרי נתונים כדי למצוא תשובות לשאלות של משתמשי קצה מתוך הנתונים שלכם. מאגרי נתונים הם אוסף של אתרים, מסמכים או נתונים במערכות של צד שלישי, שכל אחד מהם מפנה לנתונים שלכם.

כשמשתמש קצה שואל את הסוכן שאלה, הסוכן מחפש תשובה בתוכן המקור שצוין ומסכם את הממצאים לתשובה עקבית. הוא גם מספק קישורים למקורות המידע שעליהם התבססה התשובה, כדי שהמשתמש יוכל לקבל מידע נוסף. הסוכן יכול לספק עד חמישה קטעי תשובות לשאלה מסוימת.

מקורות של מאגרי נתונים

אתם יכולים להשתמש במקורות שונים לנתונים:

  • כתובות אתרים: סריקה אוטומטית של תוכן האתר מרשימה של דומיינים או דפי אינטרנט.
  • BigQuery: ייבוא נתונים מטבלת BigQuery.
  • Cloud Storage: ייבוא נתונים מקטגוריה של Cloud Storage.
  • AlloyDB: ייבוא נתונים מאשכול AlloyDB ל-PostgreSQL.
  • Bigtable: ייבוא נתונים מטבלת Bigtable.
  • Firestore: ייבוא נתונים מאוסף Firestore.
  • Cloud SQL: ייבוא נתונים מטבלה ב-Cloud SQL.
  • Spanner: ייבוא נתונים מטבלה ב-Spanner.

מקורות של מאגרי נתונים עם גישה מוגבלת

Google מציעה מקורות נוספים רבים של נתונים מאינטראקציה ישירה (First-Party) ומצד שלישי כמאפיין עם גישה מוגבלת. במאמר בנושא מקורות נוספים של נתוני חנויות מוסבר איך לראות את המקורות הזמינים ולבקש גישה.

תוכן אתר

כשמוסיפים תוכן של אתר כמקור, אפשר להוסיף כמה אתרים ולהחריג כמה אתרים. כשמציינים אתר, אפשר להשתמש בדפים ספציפיים או ב-* כתו כללי לתבנית. כל תוכן ה-HTML וה-PDF יעבור עיבוד.

כשמשתמשים בתוכן של אתר כמקור, צריך לאמת את הדומיין.

מגבלות:

  • כדי שקבצים מכתובות URL ציבוריות יופיעו באינדקס החיפוש, סורק האינדקס של חיפוש Google צריך לסרוק אותם. אפשר לבדוק את זה באמצעות Google Search Console.
  • עד 200,000 דפים נוספים לאינדקס. אם מאגר הנתונים מכיל יותר דפים, ההוספה לאינדקס תיכשל בשלב הזה, אבל כל התוכן שכבר נוסף לאינדקס יישאר.

ייבוא נתונים

אפשר לייבא נתונים מ-BigQuery או מ-Cloud Storage. הנתונים האלה יכולים להיות בפורמט של שאלות נפוצות או לא מובנים, והם יכולים להיות עם מטא-נתונים או בלי מטא-נתונים.

אלה אפשרויות ייבוא הנתונים שזמינות:

  • Add/Update Data (הוספה או עדכון של נתונים): הוספה של המסמכים שסופקו למאגר הנתונים. אם למסמך חדש יש מזהה זהה למסמך קיים, המסמך החדש מחליף את המסמך הישן.
  • החלפת הנתונים הקיימים: מחיקת כל הנתונים הקיימים והעלאת נתונים חדשים. אי אפשר לבטל את הפעולה הזו.

מאגר נתונים של שאלות נפוצות

מאגרי נתונים יכולים להכיל תשובות לשאלות נפוצות. כששאלות של משתמשים תואמות ברמת ודאות גבוהה לשאלה שהועלתה, הסוכן מחזיר את התשובה לשאלה הזו ללא שינוי. אתם יכולים לספק כותרת וכתובת URL לכל זוג של שאלה ותשובה שהסוכן מציג.

מעלים נתונים למאגר הנתונים בפורמט CSV. כל קובץ חייב לכלול שורת כותרת שמתארת את העמודות.

לדוגמה:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

אפשר להשמיט את העמודות title ו-url:

"answer","question"
"42","What is the meaning of life?"

במהלך תהליך ההעלאה, אתם יכולים לבחור תיקייה שבה כל קובץ יעבור עיבוד כקובץ CSV, בלי קשר לסיומת הקובץ.

מגבלות:

  • תו רווח מיותר אחרי , גורם לשגיאה.
  • שורות ריקות (גם בסוף הקובץ) גורמות לשגיאה.

מאגר נתונים לא מובנה

מאגרי נתונים לא מובנים יכולים להכיל תוכן בפורמטים הבאים:

  • HTML
  • PDF
  • TXT
  • CSV

אפשר לייבא קבצים מקטגוריה של Cloud Storage בפרויקט אחר. כדי לעשות זאת, צריך להעניק גישה מפורשת לתהליך הייבוא. פועלים לפי ההוראות בהודעת השגיאה, שכוללת את שם המשתמש שצריך לקבל הרשאת קריאה לקטגוריה כדי לבצע את הייבוא.

מגבלות:

  • גודל הקובץ המקסימלי הוא 2.5MB לפורמטים מבוססי-טקסט ו-100MB לפורמטים אחרים.

מאגר נתונים עם מטא-נתונים

אתם יכולים לספק כותרת וURL כמטא-נתונים. במהלך שיחה, הסוכן יכול לספק את המידע הזה כדי לעזור למשתמשים לקשר במהירות לדפי אינטרנט פנימיים שלא נגישים לסורק של אינדקס חיפוש Google.

כדי לייבא תוכן עם מטא-נתונים, צריך לספק קובץ אחד או יותר של JSON Lines. כל שורה בקובץ הזה מתארת מסמך אחד. אתם לא מעלים ישירות את המסמכים עצמם, אלא מספקים בקובץ JSON Lines את הקישור לנתיבים ב-Cloud Storage.URIs

כדי לספק את קובצי ה-JSON Lines, צריך לספק תיקייה ב-Cloud Storage שמכילה את הקבצים האלה. אל תשימו קבצים אחרים בתיקייה הזו.

תיאורי השדות:

שדה סוג תיאור
id מחרוזת מזהה ייחודי של המסמך.
content.mimeType מחרוזת סוג ה-MIME של המסמך. יש תמיכה בערכים 'application/pdf' ו-'text/html'.
content.uri מחרוזת ‫URI של המסמך ב-Cloud Storage.
structData מחרוזת אובייקט JSON בשורה אחת עם השדות האופציונליים title ו-url.

לדוגמה:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

מאגר נתונים ללא מטא-נתונים

לסוג התוכן הזה אין מטא נתונים. במקום זאת, אתם מספקים קישורי URI למסמכים הנפרדים. סוג התוכן נקבע לפי סיומת הקובץ.

הגדרות הניתוח והחלוקה לחלקים

בהתאם למקור הנתונים, אפשר להגדיר הגדרות של ניתוח וחלוקה לחלקים כפי שהוגדר בחיפוש באמצעות סוכן.

שימוש ב-Cloud Storage למאגר נתונים של מסמכים

אם התוכן שלכם לא ציבורי, האפשרות המומלצת היא לאחסן אותו ב-Cloud Storage. כשיוצרים מסמכים במאגר נתונים, מציינים את כתובות ה-URL של האובייקטים ב-Cloud Storage בתבנית הבאה: gs://bucket-name/folder-name. כל מסמך בתיקייה מתווסף למאגר הנתונים.

כשיוצרים את הקטגוריה של Cloud Storage:

פועלים לפי המדריך לתחילת העבודה עם Cloud Storage כדי ליצור קטגוריה ולהעלות קבצים.

שפות

השפות הנתמכות מפורטות בעמודה 'מאגר נתונים' בהפניה לשפה.

כדי להשיג את הביצועים הטובים ביותר, כדאי ליצור מאגרי נתונים בשפה אחת.

אחרי שיוצרים מאגר נתונים, אפשר לציין את השפה של מאגר הנתונים. אם מגדירים את השפה של מאגר הנתונים, אפשר לקשר את מאגר הנתונים לסוכן שהוגדר בשפה אחרת. לדוגמה, אתם יכולים ליצור מאגר נתונים בצרפתית שמחובר לסוכן באנגלית.

אזורים נתמכים

מידע על האזורים הנתמכים זמין במאמר בנושא אזורים.

(גישה מוגבלת) מקורות נוספים של מאגרי נתונים

בטבלה הבאה מפורטים סוגים נוספים של מאגרי נתונים. הן זמינות כתכונות עם גישה מוגבלת. כדי לבקש גישה, אפשר למלא את טופס בקשת הגישה. אחרי קבלת האישור, האפשרויות האלה יוצגו לכם כשתיצרו מאגר נתונים ב-Vertex AI Agent Builder.

מקורות של מאגרי נתונים של צד שלישי

מקור מאגר הנתונים תיאור
Box ייבוא נתונים מאתר Box של הארגון.
Confluence Cloud ייבוא נתונים ממרחב העבודה שלכם ב-Confluence Cloud.
Dropbox ייבוא נתונים מאחסון Dropbox.
EntraID ייבוא נתונים ממערכת EntraID של הארגון.
Jira Cloud ייבוא נתונים ממערכת ניהול המשימות של Jira.
OneDrive ייבוא נתונים מאחסון OneDrive של הארגון.
Microsoft Outlook ייבוא נתונים מ-Microsoft Outlook.
Salesforce ייבוא נתונים מ-Salesforce.
ServiceNow ייבוא נתונים מ-ServiceNow.
SharePoint ייבוא נתונים ממערכת SharePoint של הארגון.
Slack ייבוא נתונים מ-Slack.
Microsoft Teams ייבוא נתונים מ-Microsoft Teams.

הגדרה של מאגר נתונים של צד שלישי באמצעות מחבר

בקטע הזה מוסבר איך להגדיר מאגר נתונים באמצעות נתונים מצד שלישי. הוראות ספציפיות לכל מקור נתונים של צד שלישי מופיעות במסמכי התיעוד של Generative AI App Builder.

ספקי זהויות

ספקי זהויות מאפשרים לכם לנהל משתמשים, קבוצות ואימות. כשמגדירים מאגר נתונים של צד שלישי, אפשר להשתמש בספק זהויות של Google או בספק זהויות של צד שלישי.

ספק הזהויות של Google:

  • משתמשים בסוכן נכנסים באמצעות פרטי הכניסה שלהם לחשבון Google. כל כתובת אימייל או כל חשבון שמשתמשים ב-Google כספק זהויות (לדוגמה, Google Workspace).@gmail.com השלב הזה לא נדרש אם המשתמשים מדברים עם הסוכן ישירות באמצעות Google Cloud , כי זהות Google מוטמעת במערכת באופן אוטומטי.
  • אפשר להקצות גישה לחשבונות Google באמצעות ניהול זהויות והרשאות גישה (IAM).

ספק זהויות של צד שלישי:

  • משתמשים בסוכן נכנסים באמצעות פרטי כניסה שאינם של Google, למשל כתובת אימייל של מיקרוסופט.
  • צריך ליצור מאגר כוח עבודה באמצעות Google Cloud שכולל את ספקי הזהויות שאינם של Google. אחר כך תוכלו להשתמש ב-IAM כדי להעניק גישה למאגר כולו או למשתמשים ספציפיים במאגר.
  • אי אפשר להשתמש בשיטה הזו עם פרויקטים שהוגדרו בארגון @google.com. Google Cloud

מחברים

מאגרי נתונים של צד שלישי מוטמעים באמצעות מחבר. כל מחבר יכול להכיל כמה מאגרי נתונים, שמאוחסנים כישויות במערכת Dialogflow CX.

  • לפני שיוצרים מאגר נתונים, צריך להגדיר לכל אזור ספק זהויות יחיד בGoogle Cloud > Agent Builder > Settings. כל מאגרי הנתונים באזור הזה משתמשים באותו ספק זהויות. אתם יכולים לבחור זהות Google או זהות צד שלישי במאגר כוח העבודה. אותם פרטי כניסה ל-Google נחשבים לזהות אחרת אם הם נמצאים במאגר זהויות של כוח עבודה. לדוגמה, test@gmail.com נחשב זהות שונה מ-workforcePools/test-pool/subject/test@gmail.com.
    • יוצרים מאגר של כוח העבודה (אם צריך).
    • עוברים אל Agent Builder Settings ובוחרים באפשרות Google Identity או 3rd Party Identity. לוחצים על שמירה כדי לשמור את הזהות באזור.
    • עכשיו אפשר ליצור מאגר נתונים באזור.
  • כל מאגר נתונים שומר את הנתונים של רשימה של בקרת גישה (ACL) עם כל מסמך. ברשומה הזו מופיעים המשתמשים או הקבוצות שיש להם גישת קריאה לישויות מסוימות. במהלך זמן הריצה, משתמש או חבר בקבוצה מקבלים תשובות מהסוכן רק אם התשובות מגיעות מישויות שיש להם הרשאת קריאה אליהן. אם למשתמש אין הרשאת קריאה לאף ישות במאגר הנתונים, הסוכן מחזיר תגובה ריקה.
  • הנתונים במאגר הנתונים הם עותק של המופע של הצד השלישי, ולכן צריך לרענן אותם מעת לעת. אפשר להגדיר את מרווחי הרענון לפי שעות או לפי ימים.
  • אחרי שמגדירים את מאגר הנתונים ולוחצים על יצירה, יכול לעבור עד שעה עד שמאגר הנתונים יופיע ברשימת מאגרי הנתונים.

מעקב אחר מאגר נתונים

התכונה הזו כוללת שני חלקים:

  1. הצגה של נתוני מעקב פנימיים של מאגר הנתונים ושל השהיות של שלבים בסימולטור הסוכן.
  2. ייצוא של נתוני מעקב פנימיים של מאגר הנתונים ושל השהיות של שלבים אל Cloud Logging ו-BigQuery.

הצגת הנתונים בכלי הסימולציה

כדי להציג נתוני מעקב וביצוע בסימולטור הסוכן, מרחיבים את הפרטים על תור לשיחה בלחיצה על חץ ההרחבה משמאל לתשובת הסוכן.

בכרטיסייה ביצוע מוצגים עקבות הביצוע של מאגר הנתונים הפנימי, כולל:

  • קלט של משתמשים.
  • השאילתה אחרי שהיא נכתבה מחדש על ידי מנוע מאגר הנתונים.
  • אותות איכות משלבי הביצוע, כמו סטטוס בדיקת האבטחה, סטטוס בדיקת היציבות, תוצאת בדיקת ההצמדה וסטטוס בדיקת הבטיחות.
  • תקצירי תוצאות חיפוש מחיפוש במאגר הנתונים.
  • רשימת המסמכים התומכים בקטעי המידע.

בכרטיסייה latency (חביון) מוצג תרשים זמן של שלבי ביצוע שונים במאגר הנתונים. רשימת השלבים משתנה בהתאם לאופן ההגדרה של מאגר הנתונים ולזרימת הביצוע. הנתונים שמוצגים יכולים לכלול את הפרטים הבאים:

  • התאמה לשאלות נפוצות: מתבצע שלב של התאמה לשאלות נפוצות.
  • שינוי שאילתה: שינוי של שאילתת המשתמש המקורית.
  • חיפוש: חיפוש של קטעי טקסט.
  • סיכום: סיכום התשובה.
  • בדיקות בטיחות: מבצע בדיקות בטיחות.

הצגת נתוני מעקב במיקומים אחרים

  • אם מגדירים את הסוכן הדיגיטלי עם רישום ביומן של היסטוריית השיחות, אפשר לראות את המעקב של מאגר הנתונים בהיסטוריית השיחות.
  • אם מגדירים את הסוכן לשיחה עם Logging, אפשר לראות את המעקב וההשהיות ב-Logs Explorer בענן.
  • אם מגדירים את הסוכן הדיגיטלי עם BigQuery Export, אפשר לראות את נתוני המעקב וההשהיות בטבלה ב-BigQuery מיוצאת.

המאמרים הבאים

במסמכי התיעוד של כלי מאגר הנתונים מוסבר איך ליצור מאגר נתונים ולהשתמש בו עם סוכן.