לעתים קרובות יש לארגונים אפליקציות בהתאמה אישית שפותחו בתוך הארגון. אם אתם רוצים ש-Gemini Enterprise יתחבר למקורות הנתונים באפליקציות המותאמות אישית האלה, אתם צריכים קודם להכין את הנתונים. הדרך שבה מכינים את הנתונים תלויה בסוג הנתונים שמייבאים ממקור הנתונים המותאם אישית ובשיטת הייבוא שבחרתם. מתחילים עם סוג הנתונים שמתכננים לייבא:
למידע על מגבלות בחיפוש משולב, שבו אפשר לקשר כמה מאגרי נתונים לאפליקציה אחת, אפשר לעיין במאמר מידע על קישור של כמה מאגרי נתונים.
נתונים לא מובנים
Gemini Enterprise תומך בחיפוש במסמכים בפורמטים TXT, PDF, HTML, DOCX, PPTX, XLSX ו-XLSM.
בטבלה הבאה מפורטות מגבלות הגודל של כל סוג קובץ עם הגדרות שונות (למידע נוסף, ראו ניתוח מסמכים וחלוקה שלהם לחלקים). אפשר לייבא עד 100,000 קבצים בכל פעם.
| סוג קובץ | ייבוא ברירת מחדל |
|---|---|
| קבצים מבוססי-טקסט כמו HTML, TXT, JSON, XHTML ו-XML | < 200 MB |
| PPTX, DOCX, XLSX ו-XLSM | < 200 MB |
| < 200 MB |
אם אתם מתכננים לכלול הטמעות בנתונים הלא מובנים שלכם, כדאי לעיין במאמר בנושא שימוש בהטמעות בהתאמה אישית במסמכי חיפוש מבוסס-Vertex AI.
אם יש לכם קובצי PDF שלא ניתן לחפש בהם (קובצי PDF סרוקים או קובצי PDF עם טקסט בתוך תמונות, כמו אינפוגרפיקות), מומלץ להפעיל את כלי הניתוח של הפריסה במהלך יצירת מאגר הנתונים. כך Gemini Enterprise יכול לחלץ רכיבים כמו בלוקים של טקסט וטבלאות. אם יש לכם קובצי PDF זמינים בחיפוש שמורכבים בעיקר מטקסט בפורמט קריא למכונה ומכילים הרבה טבלאות, כדאי להפעיל עיבוד OCR עם האפשרות של טקסט בפורמט קריא למכונה כדי לשפר את הזיהוי והניתוח. מידע נוסף זמין במאמר בנושא ניתוח מסמכים וחלוקה שלהם לחלקים.
אם רוצים להשתמש ב-Gemini Enterprise כדי ליצור תשובות על סמך מידע מאוחזר (RAG), צריך להפעיל את האפשרות 'חלוקת מסמכים לקטעים' כשיוצרים את מאגר הנתונים. מידע נוסף זמין במאמר ניתוח מסמכים וחלוקה שלהם לחלקים.
אתם יכולים לייבא נתונים לא מובנים מהמקורות הבאים:
Cloud Storage
אפשר לייבא נתונים מ-Cloud Storage עם מטא-נתונים או בלי מטא-נתונים באמצעות מסוףGoogle Cloud , באמצעות ה-method ImportDocuments או באמצעות הטמעת עדכונים בזמן אמת דרך שיטות CRUD. מידע על הפניית API זמין במאמרים DocumentService ו-documents.
ייבוא הנתונים הוא רקורסיבי. כלומר, אם יש תיקיות בתוך הדלי או התיקייה שציינתם, הקבצים בתיקיות האלה מיובאים.
אם אתם מתכננים לייבא מסמכים מ-Cloud Storage בלי מטא-נתונים, אתם צריכים להוסיף את המסמכים ישירות לקטגוריה של Cloud Storage. מזהה המסמך הוא דוגמה למטא-נתונים.
לצורך בדיקה, אתם יכולים להשתמש בתיקיות הבאות של Cloud Storage שזמינות לציבור ומכילות קובצי PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfsgs://cloud-samples-data/gen-app-builder/search/CUAD_v1gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveysgs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
אם אתם מתכננים לייבא נתונים מ-Cloud Storage עם מטא-נתונים, אתם צריכים להוסיף קובץ JSON שמכיל את המטא-נתונים לקטגוריה של Cloud Storage שאת המיקום שלה אתם מציינים במהלך הייבוא.
המסמכים הלא מובנים יכולים להיות באותה קטגוריה של Cloud Storage כמו המטא-נתונים או בקטגוריה אחרת.
קובץ המטא-נתונים חייב להיות קובץ JSON Lines או קובץ NDJSON. מזהה המסמך הוא דוגמה למטא-נתונים. כל שורה בקובץ המטא-נתונים צריכה להיות בפורמט JSON, באחד מהפורמטים הבאים:
שימוש ב-
jsonData:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }שימוש ב-
structData:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
משתמשים בשדה uri בכל שורה כדי להפנות למיקום ב-Cloud Storage של המסמך.
זוהי דוגמה לקובץ מטא-נתונים בפורמט NDJSON של מסמך לא מובנה. בדוגמה הזו, כל שורה בקובץ המטא-נתונים מצביעה על מסמך PDF ומכילה את המטא-נתונים של המסמך הזה. בשתי השורות הראשונות נעשה שימוש ב-jsonData ובשתי השורות הבאות נעשה שימוש ב-structData. ב-structData לא צריך להשתמש בתו בריחה למרכאות שמופיעות בתוך מרכאות.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
ליצירת מאגר הנתונים שלכם, ראו קישור מקור נתונים של Google.
BigQuery
אם אתם מתכננים לייבא מטא-נתונים מ-BigQuery, אתם צריכים לבצע את השלבים הבאים:
יוצרים טבלה ב-BigQuery שמכילה מטא-נתונים. מזהה המסמך הוא דוגמה למטא-נתונים.
מכניסים את המסמכים הלא מובנים לקטגוריה של Cloud Storage.
אפשר לייבא באמצעות מסוףGoogle Cloud , באמצעות ה-method
ImportDocumentsאו באמצעות הטמעת עדכונים בזמן אמת דרך שיטות CRUD. מידע על הפניית API זמין במאמריםDocumentServiceו-documents.
משתמשים בסכימת BigQuery הבאה. משתמשים בשדה uri בכל רשומה כדי להפנות למיקום של המסמך ב-Cloud Storage.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
מידע נוסף זמין במאמר יצירה ושימוש בטבלאות במאמרי העזרה של BigQuery.
ליצירת מאגר הנתונים שלכם, ראו קישור מקור נתונים של Google.
Google Drive
החיפוש תומך בסנכרון נתונים מ-Google Drive.
אם אתם מתכננים לייבא נתונים מ-Google Drive, אתם צריכים להגדיר את Google Identity כספק הזהויות שלכם ב-Gemini Enterprise. מידע על הגדרת בקרת גישה זמין במאמר זהויות והרשאות.
ליצירת מאגר הנתונים שלכם, ראו קישור מקור נתונים של Google.
נתונים מובְנים
מכינים את הנתונים בהתאם לשיטת הייבוא שבה מתכננים להשתמש.
אפשר לייבא נתונים מובְנים מהמקורות הבאים:
כשמייבאים נתונים מובנים מ-BigQuery או מ-Cloud Storage, יש אפשרות לייבא את הנתונים עם מטא-נתונים. (נתונים מובְנים עם מטא-נתונים נקראים גם נתונים מובְנים משופרים).
BigQuery
אפשר לייבא נתונים מובְנים ממערכי נתונים של BigQuery.
הסכימה מזוהה באופן אוטומטי. אחרי הייבוא, Google ממליצה לערוך את הסכימה שזוהתה אוטומטית כדי למפות מאפייני מפתח, כמו שמות. אם אתם מייבאים באמצעות ה-API במקום באמצעות מסוף Google Cloud , יש לכם אפשרות לספק סכימה משלכם כאובייקט JSON. מידע נוסף זמין במאמר בנושא הוספה או זיהוי אוטומטי של סכימה.
דוגמאות לנתונים מובנים שזמינים לכולם מופיעות במערכי הנתונים הציבוריים של BigQuery.
אם אתם מתכננים לכלול הטמעות בנתונים המובְנים, כדאי לעיין במאמר שימוש בהטמעות בהתאמה אישית במסמכי התיעוד של חיפוש מבוסס-Vertex AI.
אם בוחרים לייבא נתונים מובנים עם מטא-נתונים, צריך לכלול שני שדות בטבלאות BigQuery:
שדה
idלזיהוי המסמך. אם מייבאים נתונים מובְנים בלי מטא-נתונים, המערכת יוצרת אתidבשבילכם. הכללת מטא-נתונים מאפשרת לכם לציין את הערך שלid.שדה
jsonDataשמכיל את הנתונים. דוגמאות למחרוזותjsonDataמופיעות בקטע הקודם Cloud Storage.
כדי לייבא נתונים מובנים עם מטא-נתונים, משתמשים בסכימת BigQuery הבאה:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
ליצירת מאגר הנתונים שלכם, ראו קישור מקור נתונים של Google.
Cloud Storage
נתונים מובנים ב-Cloud Storage צריכים להיות בפורמט JSON Lines או NDJSON. כל קובץ צריך להיות קטן מ-2GB, וכל שורה בקובץ צריכה להיות קטנה מ-1MB. אפשר לייבא עד 1,000 קבצים בבקשת ייבוא אחת.
דוגמאות לנתונים מובְנים שזמינים לציבור מופיעות בתיקיות הבאות ב-Cloud Storage, שמכילות קובצי NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_moviesgs://cloud-samples-data/gen-app-builder/search/austin_311
אם אתם מתכננים לכלול הטמעות בנתונים המובְנים, כדאי לעיין במאמר שימוש בהטמעות בהתאמה אישית במסמכי התיעוד של חיפוש מבוסס-Vertex AI.
זוהי דוגמה לקובץ מטא-נתונים בפורמט NDJSON של נתונים מובְנים. כל שורה בקובץ מייצגת מסמך ומורכבת מקבוצה של שדות.
{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
כדי ליצור את מאגר הנתונים, אפשר לעיין במאמר בנושא קישור מקור נתונים של הנתונים בחשבון Google.
נתוני JSON מקומיים
אפשר להעלות ישירות מסמך או אובייקט בפורמט JSON באמצעות ה-API.
כדי לקבל תוצאות טובות יותר, Google ממליצה לספק סכימה משלכם כאובייקט JSON. אם לא מספקים סכימה משלכם, המערכת מזהה את הסכימה באופן אוטומטי. אחרי הייבוא, מומלץ לערוך את הסכימה שזוהתה אוטומטית כדי למפות מאפייני מפתח, כמו שמות. מידע נוסף זמין במאמר בנושא הוספה או זיהוי אוטומטי של סכימה.
אם אתם מתכננים לכלול הטמעות בנתונים המובְנים, כדאי לעיין במאמר שימוש בהטמעות בהתאמה אישית במסמכי התיעוד של חיפוש מבוסס-Vertex AI.
ליצירת מאגר הנתונים שלכם, ראו קישור מקור נתונים של Google.