הערה: קבוצת המסמכים הזו מיועדת למהדורות Standard,‏ Plus ו-Frontline של Gemini Enterprise. לעיון במסמכי התיעוד של מהדורת Business, אפשר להיכנס אל מרכז העזרה של Gemini Enterprise – מהדורת Business.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ניתוח ופיצול מסמכים

מנתח ברירת המחדל של Gemini Enterprise הוא מנתח הפריסה. בדרך כלל זו הבחירה הכי טובה כי היא מזהה את ההיררכיה של המסמך ומבינה אותה, מה שמוביל לחלוקה טובה יותר לחלקים ובסופו של דבר ליצירה ולאחזור טובים יותר של תשובות. עם זאת, יכול להיות שתרצו לשנות את מנתח ברירת המחדל במצבים מסוימים, למשל אם יש לכם הרבה נתונים סרוקים להעלאה למאגר הנתונים. בדף הזה מוסבר איך לשנות את כלי הניתוח.

אתם יכולים לציין איך לנתח תוכן לא מובנה כשאתם מעלים אותו ל-Gemini Enterprise. ‫Gemini Enterprise מספק מנתח פריסות (ברירת מחדל, מומלץ), מנתח דיגיטלי ומנתח OCR לקובצי PDF. אפשר גם להעלות מסמכים מנותחים משלכם.

מידע נוסף מופיע במאמר שיפור זיהוי התוכן באמצעות ניתוח תחבירי.

ניתוח מסמכים

אפשר לשלוט בניתוח התוכן בדרכים הבאות:

מציינים את סוג כלי הניתוח. אפשר לציין את סוג הניתוח שיחול בהתאם לסוג הקובץ:
- מנתח פריסה. מנתח הפריסה הוא מנתח ברירת המחדל. מידע על מנתח התוכן הזה זמין במאמר בנושא חלוקת מסמכים ל-chunks עבור RAG.
- ניתוח OCR לקובצי PDF. אם אתם מתכננים להעלות קובצי PDF סרוקים או קובצי PDF עם טקסט בתוך תמונות, אתם יכולים להפעיל את מנתח ה-OCR כדי לשפר את יצירת האינדקס של קובצי PDF. מידע נוסף זמין בקטע מנתח OCR לקובצי PDF במסמך הזה.
- מנתח דיגיטלי. המנתח הדיגיטלי הוא מנתח בסיסי שמחלץ טקסט שניתן לקריאה על ידי מכונה ממסמכים. מידע נוסף זמין במאמר בנושא Digital parser.
העלאת מסמך מנותח משלכם. (תצוגה מקדימה עם רשימת היתרים) אם כבר ניתחתם מסמכים לא מובנים, אתם יכולים לייבא את התוכן שכבר נותח ל-Gemini Enterprise. איך מעלים מסמך מנותח משלכם

השוואה בין הזמינות של מנתחי נתונים

בטבלה הבאה מפורטת הזמינות של כל מנתח לפי סוגי קבצים של מסמכים, ומוצגים הרכיבים שכל מנתח יכול לזהות ולנתח.

סוג קובץ	מנתח דיגיטלי	מנתח OCR	מנתח פריסות
HTML	זיהוי של רכיבי פסקה	לא רלוונטי	מזהה רכיבים של פסקה, טבלה, תמונה, רשימה, כותרת וכותרת משנה
PDF	זיהוי של רכיבי פסקה (טקסט דיגיטלי)	זיהוי של רכיבי פסקה	מזהה רכיבים של פסקאות, טבלאות, כותרות, תמונות וכותרות עליונות
DOCX	זיהוי של רכיבי פסקה	לא רלוונטי	מזהה אלמנטים של פסקה, טבלה, תמונה, רשימה, כותרת ושם
PPTX	זיהוי של רכיבי פסקה	לא רלוונטי	מזהה אלמנטים של פסקה, טבלה, תמונה, רשימה, כותרת ושם
TXT	זיהוי של רכיבי פסקה	לא רלוונטי	לא רלוונטי
XLSX	זיהוי של רכיבי פסקה	לא רלוונטי	זיהוי של רכיבי פסקה, טבלה, שם וכותרת
XLSM	זיהוי של רכיבי פסקה	לא רלוונטי	זיהוי של רכיבי פסקה, טבלה, שם וכותרת

מנתח OCR לקובצי PDF

אם יש לכם קובצי PDF שלא ניתן לחפש בהם (קובצי PDF סרוקים או קובצי PDF עם טקסט בתוך תמונות, כמו אינפוגרפיקות), Google ממליצה להפעיל עיבוד של זיהוי תווים אופטי (OCR) במהלך יצירת מאגר הנתונים. כך Gemini Enterprise יכול לחלץ אלמנטים של פסקאות.

אם יש לכם קובצי PDF שאפשר לחפש בהם או פורמטים דיגיטליים אחרים שמורכבים בעיקר מטקסט שניתן לקריאה על ידי מכונה, בדרך כלל לא צריך להשתמש במנתח ה-OCR. עם זאת, אם יש לכם קובצי PDF עם טקסט שלא ניתן לחיפוש (כמו טקסט סרוק או אינפוגרפיקות) וגם טקסט שניתן לקריאה על ידי מכונה, אתם יכולים להגדיר את השדה useNativeText כ-true כשמציינים את מנתח ה-OCR. במקרה הזה, טקסט שניתן לקריאה על ידי מכונה משולב עם פלט של ניתוח OCR כדי לשפר את איכות חילוץ הטקסט.

תכונות עיבוד OCR זמינות לאפליקציות חיפוש בהתאמה אישית עם מאגרי נתונים לא מובנים.

מעבד ה-OCR יכול לנתח את 500 הדפים הראשונים של קובץ PDF. דפים שחורגים מהמגבלה של 500 דפים לא מעובדים.

מנתח פריסות

זהו מנתח ברירת המחדל. הוא מאפשר ל-Gemini Enterprise לזהות פריסות של קבצים בפורמטים PDF,‏ HTML,‏ DOCX,‏ PPTX,‏ XLSX ו-XLSM. ‫Gemini Enterprise יכול לזהות רכיבי תוכן כמו בלוקים של טקסט, טבלאות, רשימות ורכיבים מבניים כמו כותרות וכותרות משנה, ולהשתמש בהם כדי להגדיר את הארגון וההיררכיה של מסמך.

מנתח הפריסה מזהה רכיבי תוכן כמו פסקאות, טבלאות, רשימות ורכיבים מבניים כמו כותרות, כותרות משנה, כותרות עליונות והערות שוליים.

‫Gemini Enterprise מפרק מסמכים לחלקים בזמן ההטמעה ויכול להחזיר מסמכים כחלקים. זיהוי הפריסה של המסמך מאפשר חלוקה לקטעים בהתאם לתוכן, ומשפר את החיפוש ואת יצירת התשובות שקשורות לרכיבי המסמך. מידע נוסף על חלוקת מסמכים לחלקים לצורך RAG זמין במאמר חלוקת מסמכים לחלקים לצורך RAG.

כדי להפיק את המירב מהיכולות של מנתח הפריסות, כמו ניתוח טבלאות, פריסות מרובות עמודות ותוכן שתלוי ב-OCR, מומלץ להשתמש בו במצב של הכנסת נתונים.

למרות שגם מחברים במצב חיבור של חיפוש מאוחד (כמו Microsoft SharePoint ו-Microsoft OneDrive) משתמשים בכלי לניתוח פריסות, האופי של השאילתות האלה בזמן אמת יכול למנוע מהכלי לנתח באופן מלא מבני PDF מורכבים. לניתוח מעמיק של קובצי PDF מורכבים, מומלץ להשתמש במחברים במצב של העברת נתונים.

הערה לתמונה

כשמזהים תמונה במסמך מקור, תיאור (הערה) של התמונה והתמונה עצמה מוקצים לחלק. ההערה קובעת אם צריך להחזיר את החלק בתוצאת חיפוש. אם נוצרת תשובה, ההערה יכולה להיות מקור לתשובה.

מנתח הפריסה יכול לזהות את סוגי התמונות הבאים: BMP,‏ GIF,‏ JPEG,‏ PNG ו-TIFF.

הערות בטבלה

כשמזהים טבלה במסמך מקור, המערכת מקצה לנתח תיאור (הערה) של הטבלה ואת הטבלה עצמה. ההערה קובעת אם צריך להחזיר את החלק בתוצאת חיפוש. אם נוצרת תשובה, ההערה יכולה להיות מקור לתשובה.

החרגת תוכן HTML

כשמשתמשים בכלי לניתוח פריסות במסמכי HTML, אפשר להחריג חלקים ספציפיים מתוכן ה-HTML כך שלא יעברו עיבוד. כדי לשפר את איכות הנתונים באפליקציות לחיפוש ובאפליקציות RAG, אפשר להחריג טקסטים סטנדרטיים או קטעים כמו תפריטי ניווט, כותרות, כותרות תחתונות או סרגלי צד.

האובייקט layoutParsingConfig מספק את השדות הבאים למטרה הזו:

‫excludeHtmlElements: רשימה של תגי HTML שיוחרגו. התוכן שמופיע בין התגים האלה מוחרג.
‫excludeHtmlClasses: רשימה של מאפייני מחלקה ב-HTML שצריך להחריג. רכיבי HTML שמכילים את מאפייני המחלקה האלה, יחד עם התוכן שלהם, מוחרגים.
‫excludeHtmlIds: רשימה של מאפייני מזהה של רכיבי HTML שצריך להחריג. רכיבי HTML עם מאפייני המזהה האלה, יחד עם התוכן שלהם, לא נכללים.

מנתח דיגיטלי

הכלי הדיגיטלי לניתוח תחבירי מחלץ טקסט שקריא למכונה ממסמכים. הוא מזהה בלוקים של טקסט, אבל לא רכיבים של מסמכים כמו טבלאות, רשימות וכותרות.

המנתח הדיגיטלי משמש אם המנתח שצוין לא תומך בסוג הקובץ שמועלה. לדוגמה, אם מציינים את מנתח הפריסה, מנתח הדיגיטל משמש לניתוח קובצי TXT כי מנתח הפריסה לא תומך בקובצי טקסט.

ציון מנתח ברירת מחדל

כשיוצרים מאגר נתונים, אפשר לכלול את אובייקט documentProcessingConfig כדי לציין מנתח ברירת מחדל למאגר הנתונים. אם לא כוללים את documentProcessingConfig.defaultParsingConfig, נעשה שימוש במנתח הדיגיטלי. המנתח הדיגיטלי משמש גם אם המנתח שצוין לא זמין לסוג קובץ מסוים.

REST

כדי לציין מנתח ברירת מחדל:

כשיוצרים מאגר נתונים באמצעות ה-API, צריך לכלול את documentProcessingConfig.defaultParsingConfig בבקשה ליצירת מאגר הנתונים. אפשר לציין את מנתח ה-OCR, את מנתח הפריסה או את המנתח הדיגיטלי:
- כדי לציין את מנתח ה-OCR לקובצי PDF:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
    "ocrParsingConfig": {
      "useNativeText": "NATIVE_TEXT_BOOLEAN"
    }
  }
}
```
  - הערך NATIVE_TEXT_BOOLEAN הוא אופציונלי. ההגדרה הזו רלוונטית רק אם אתם מעלים קובצי PDF. אם המדיניות מוגדרת לערך true, מופעל עיבוד של טקסט שניתן לקריאה על ידי מכונה עבור מנתח ה-OCR. ערך ברירת המחדל הוא false.
- כדי לציין את מנתח הפריסה:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
    "layoutParsingConfig": {}
  }
}
```
- כדי לציין את מנתח הנתונים הדיגיטלי:
  
  הערה: בדרך כלל אין צורך לציין את מנתח הנתונים הדיגיטלי כ-defaultParsingConfig. אם לא מציינים מנתח אחר באופן מפורש, נעשה שימוש במנתח הדיגיטלי כברירת מחדל.
```
 "documentProcessingConfig": {
    "defaultParsingConfig": { "digitalParsingConfig": {} }
 }
```

המסוף

כשיוצרים מאגר נתוני חיפוש דרך המסוף, אפשר לציין את מנתח ברירת המחדל.

דוגמה

בדוגמה הבאה מצוין במהלך יצירת מאגר הנתונים שמנתח ה-OCR יהיה מנתח ברירת המחדל. מכיוון שמנתח ה-OCR חל רק על קובצי PDF, כל קובצי ה-PDF שמוזנים למערכת יעברו עיבוד על ידי מנתח ה-OCR, וכל סוגי הקבצים האחרים יעברו עיבוד על ידי המנתח הדיגיטלי.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

הגדרת שינויים מברירת המחדל של מנתח לכל סוגי הקבצים

אפשר לציין שסוג קובץ מסוים ינותח על ידי מנתח אחר ולא על ידי מנתח ברירת המחדל. כדי לעשות זאת, צריך לכלול את השדה documentProcessingConfig בבקשה ליצירת מאגר הנתונים ולציין את מנתח העל. אם לא מציינים מנתח ברירת מחדל, מנתח הנתונים הדיגיטלי הוא ברירת המחדל.

REST

כדי לציין החלפה של מנתח ספציפי לסוג קובץ:

כשיוצרים מאגר נתונים באמצעות ה-API, צריך לכלול את documentProcessingConfig.defaultParsingConfig בבקשה ליצירת מאגר הנתונים.

אפשר לציין מנתח לסוג קובץ מסוים:
```
"documentProcessingConfig": {
  "parsingConfigOverrides": {
    "FILE_TYPE": { PARSING_CONFIG },
  }
 }
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫FILE_TYPE: הערכים הקבילים הם pdf,‏ html,‏ docx,‏ pptx,‏ xlsm ו-xlsx.
- PARSING_CONFIG: מציינים את ההגדרות של כלי הניתוח שרוצים להחיל על סוג הקובץ. אפשר לציין את מנתח ה-OCR, את מנתח הפריסה או את המנתח הדיגיטלי:
  - כדי לציין את מנתח ה-OCR לקובצי PDF:
```
"ocrParsingConfig": {
  "useNativeText": "NATIVE_TEXT_BOOLEAN"
}
```
    - ‫NATIVE_TEXT_BOOLEAN: אופציונלי. ההגדרה הזו רלוונטית רק אם אתם מעלים קובצי PDF. אם הערך הוא true, מופעל עיבוד של טקסט שניתן לקריאה על ידי מכונה עבור מנתח ה-OCR. ערך ברירת המחדל הוא false.
  - כדי לציין את מנתח הפריסה:
```
"layoutParsingConfig": {}
```
  - כדי לציין את מנתח הנתונים הדיגיטלי:
```
"documentProcessingConfig": {
  "defaultParsingConfig": { "digitalParsingConfig": {} }
}
```

המסוף

כשיוצרים מאגר נתוני חיפוש דרך המסוף, אפשר לציין החלפות של מנתח עבור סוגי קבצים ספציפיים.

דוגמה

בדוגמה הבאה מצוין שבמהלך יצירת מאגר הנתונים, קובצי PDF יעברו עיבוד על ידי מנתח ה-OCR וקובצי HTML יעברו עיבוד על ידי מנתח הפריסה. במקרה כזה, כל הקבצים מלבד קובצי PDF ו-HTML יעברו עיבוד על ידי מנתח דיגיטלי.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

עריכת ניתוח מסמכים למאגרי נתונים קיימים

אם כבר יש לכם מאגר נתונים, אתם יכולים לשנות את מנתח ברירת המחדל ולהוסיף חריגים לפורמט הקובץ. עם זאת, הגדרות הניתוח המעודכנות חלות רק על מסמכים חדשים שיובאו למאגר הנתונים. מסמכים שכבר נמצאים במאגר הנתונים לא ינותחו מחדש עם ההגדרות החדשות.

כדי לשנות את ההגדרות של ניתוח מסמכים במאגר נתונים:

נכנסים לדף Gemini Enterprise במסוף Google Cloud .

‫Gemini Enterprise
בתפריט הניווט, לוחצים על מאגרי נתונים.
בעמודה שם, לוחצים על מאגר הנתונים שרוצים לערוך.
בכרטיסייה Processing config, עורכים את ההגדרות של Document parsing.

אי אפשר לשנות את ההגדרות של חלוקת המסמך לחלקים. אם לא מופעלת חלוקה לקטעים במאגר הנתונים, אי אפשר לבחור את מנתח הפריסה.
לוחצים על שליחה.

הגדרת מנתח פריסה להחרגת תוכן HTML

אפשר להגדיר את כלי הניתוח של הפריסה כך שיחריג תוכן HTML על ידי ציון excludeHtmlElements, excludeHtmlClasses או excludeHtmlIds ב-documentProcessingConfig.defaultParsingConfig.layoutParsingConfig.

REST

כדי להחריג תוכן HTML מסוים מהעיבוד על ידי מנתח הפריסה, מבצעים את הפעולות הבאות:

כשיוצרים מאגר נתוני חיפוש באמצעות ה-API, צריך לכלול את documentProcessingConfig.defaultParsingConfig.layoutParsingConfig בבקשה ליצירת מאגר נתונים.

כדי להחריג סוגים ספציפיים של תגי HTML, משתמשים ב:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlElements": ["HTML_TAG_1","HTML_TAG_2","HTML_TAG_N"]
   }
  }
 }

מחליפים את המשתנים HTML_TAG בשמות של תגים, לדוגמה: nav ו-footer.

כדי להחריג מאפייני מחלקה ספציפיים של רכיבי HTML, משתמשים ב:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlClasses": ["HTML_CLASS_1","HTML_CLASS_2","HTML_CLASS_N"]
   }
  }
 }
```
מחליפים את המשתנים HTML_CLASS במאפייני המחלקה, לדוגמה, overlay ו-screenreader.
כדי להחריג מאפייני מזהה של רכיבי HTML ספציפיים, משתמשים ב:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlIds": ["HTML_ID_1","HTML_ID_2","HTML_ID_N"]
   }
  }
 }
```
מחליפים את המשתנים HTML_ID במאפייני מזהה, לדוגמה, cookie-banner.

דוגמה

בדוגמה הזו מצוין שכאשר קובצי HTML מעובדים על ידי מנתח הפריסה, המנתח מדלג על הרכיבים הבאים:

תגי רכיבי HTML‏, header,‏ footer,‏ nav ו-aside
מאפייני class של רכיבי HTML מהסוגים overlays ו-screenreader
כל הרכיבים עם מזהה המאפיין cookie-banner

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123&createAdvancedSiteSearch=true" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "contentConfig": "PUBLIC_WEBSITE",
  "documentProcessingConfig": {
    "chunkingConfig": {
      "layoutBasedChunkingConfig": {}
    },
    "defaultParsingConfig": {
      "layoutParsingConfig": {
       "excludeHtmlElements": ["header", "footer", "nav", "aside"],
       "excludeHtmlClasses": ["overlays", "screenreader"],
       "excludeHtmlIds": ["cookie-banner"]
      }
    }
  }
}'

קבלת מסמכים מנותחים ב-JSON

כדי לקבל מסמך מנותח בפורמט JSON, קוראים לשיטה getProcessedDocument ומציינים את PARSED_DOCUMENT כסוג המסמך המעובד. קבלת מסמכים מנותחים בפורמט JSON יכולה להיות שימושית אם אתם צריכים להעלות את המסמך המנותח למקום אחר, או אם אתם מחליטים לייבא מחדש מסמכים מנותחים ל-Gemini Enterprise באמצעות התכונה העלאת מסמך מנותח משלכם.

REST

כדי לקבל מסמכים מנותחים בפורמט JSON, פועלים לפי השלב הזה:

מבצעים קריאה ל-getProcessedDocument:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"

מחליפים את מה שכתוב בשדות הבאים:

‫PROJECT_ID: מזהה הפרויקט.
‫DATA_STORE_ID: המזהה של מאגר הנתונים.
‫DOCUMENT_ID: המזהה של המסמך שרוצים לקבל.

שימוש במסמך מנותח משלכם

אתם יכולים לייבא מסמכים לא מובנים שכבר עברו ניתוח לתוך מאגרי נתונים של Gemini Enterprise. לדוגמה, במקום לייבא מסמך PDF גולמי, אפשר לנתח את ה-PDF בעצמכם ולייבא את תוצאת הניתוח. כך תוכלו לייבא את המסמכים בצורה מובנית, ולוודא שחיפוש ויצירת תשובות יתבססו על מידע לגבי הפריסה והרכיבים של המסמך.

מסמך לא מובנה שעבר ניתוח מיוצג על ידי JSON שמתאר את המסמך הלא מובנה באמצעות רצף של בלוקים של טקסט, טבלה ורשימה. אתם מייבאים קובצי JSON עם נתונים מנותחים של מסמכים לא מובנים באותה דרך שבה אתם מייבאים סוגים אחרים של מסמכים לא מובנים, כמו קובצי PDF. כשהתכונה הזו מופעלת, בכל פעם שמעלים קובץ JSON ומזהים אותו לפי סוג MIME‏ application/json או לפי הסיומת ‎ .JSON, המערכת מתייחסת אליו כמסמך מנותח.

כדי להפעיל את התכונה הזו ולקבל מידע על השימוש בה, אפשר לפנות לצוות התמיכה בחשבון Google.

Chunk documents for RAG

כברירת מחדל, Gemini Enterprise מותאם לאחזור מסמכים, שבו אפליקציית החיפוש מחזירה מסמך כמו PDF או דף אינטרנט עם כל תוצאת חיפוש.

תכונות של חלוקת מסמכים לחלקים זמינות לאפליקציות חיפוש בהתאמה אישית עם מאגרי נתונים לא מובנים.

במקום זאת, אפשר לבצע אופטימיזציה של Gemini Enterprise ל-RAG, שבו אפליקציית החיפוש משמשת בעיקר להוספת נתונים מותאמים אישית לפלט של מודל LLM. כשההגדרה 'חלוקת מסמכים לחלקים' מופעלת, Gemini Enterprise מחלק את המסמכים לחלקים. בתוצאות החיפוש, אפליקציית החיפוש יכולה להחזיר נתחים רלוונטיים של נתונים במקום מסמכים מלאים. שימוש בנתונים מחולקים ל-RAG מגדיל את הרלוונטיות של תשובות LLM ומפחית את עומס החישוב של LLM.

כדי להשתמש ב-Gemini Enterprise ל-RAG:

כשיוצרים את מאגר הנתונים, מפעילים את האפשרות 'חלוקת המסמך לחלקים'. לחלופין, אפשר להעלות נתחים משלכם (תצוגה מקדימה עם רשימת היתרים) אם כבר חילקתם את המסמכים שלכם לנתחים.
אפשר לאחזר ולראות את החלקים בדרכים הבאות:
החזרת נתחים בבקשות חיפוש.

מגבלות

ההגבלות הבאות חלות על חלוקה לחלקים:

אי אפשר להפעיל או להשבית את חלוקת המסמכים לחלקים אחרי שיוצרים את מאגר הנתונים.
אתם יכולים לשלוח בקשות חיפוש למסמכים במקום לחלקים ממאגר נתונים, אם הפעלתם את האפשרות 'חלוקת מסמכים לחלקים'. עם זאת, מאגרי נתונים שמופעלת בהם חלוקת מסמכים לחלקים לא מותאמים להחזרת מסמכים. המסמכים מוחזרים על ידי צבירת נתחים למסמכים.

אפשרויות לחלוקת המסמך לחלקים

בקטע הזה מוסבר על האפשרויות שצריך לציין כדי להפעיל את חלוקת המסמך לחלקים.

במהלך יצירת מאגר הנתונים, מפעילים את האפשרויות הבאות כדי ש-Gemini Enterprise יוכל ליצור אינדקס למסמכים שלכם כחלקים.

חלוקת מסמכים לחלקים בהתאם לפריסה. כדי להפעיל את האפשרות הזו, צריך לכלול את השדה documentProcessingConfig בבקשה ליצירת מאגר הנתונים ולציין ChunkingConfig.LayoutBasedChunkingConfig.

כשהאפשרות 'חלוקת מסמכים למקטעים בהתאם לפריסה' מופעלת, Gemini Enterprise מזהה את הפריסה של המסמך ומתחשב בה במהלך החלוקה למקטעים. כך משפרים את הלכידות הסמנטית ומפחיתים את הרעש בתוכן כשמשתמשים בו לאחזור ולגנרציה של LLM. כל הטקסט בקטע יגיע מאותו רכיב פריסה, כמו כותרות, כותרות משנה ורשימות.
ניתוח פריסה. כדי להפעיל את האפשרות הזו, צריך לציין את הערך ParsingConfig.LayoutParsingConfig במהלך יצירת מאגר הנתונים.

כלי הניתוח של הפריסה מזהה פריסות בקבצים בפורמטים PDF,‏ HTML,‏ DOCX,‏ PPTX,‏ XLSX ו-XLSM. הוא מזהה אלמנטים כמו בלוקים של טקסט, טבלאות, רשימות, כותרות וכותרות משנה, ומשתמש בהם כדי להגדיר את הארגון וההיררכיה של המסמך.

מידע נוסף על ניתוח פריסה זמין במאמר ניתוח פריסה.

הפעלת חלוקת המסמך לחלקים

כדי להפעיל את חלוקת המסמך לחלקים, צריך לכלול את אובייקט documentProcessingConfig בבקשה ליצירת מאגר הנתונים ולהפעיל את חלוקת המסמך לחלקים בהתאם לפריסה ואת ניתוח הפריסה.

REST

כדי להפעיל את חלוקת המסמך לחלקים:

כשיוצרים מאגר נתוני חיפוש באמצעות ה-API, צריך לכלול את האובייקט documentProcessingConfig.chunkingConfig בבקשה ליצירת מאגר הנתונים.
```
 "documentProcessingConfig": {
   "chunkingConfig": {
       "layoutBasedChunkingConfig": {
           "chunkSize": CHUNK_SIZE_LIMIT,
           "includeAncestorHeadings": HEADINGS_BOOLEAN,
       }
   },
   "defaultParsingConfig": {
     "layoutParsingConfig": {}
   }
 }
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫CHUNK_SIZE_LIMIT: אופציונלי. מגבלת גודל הטוקן לכל מקטע. ערך ברירת המחדל הוא 500. הערכים הנתמכים הם 100 עד 500 (כולל).
- ‫HEADINGS_BOOLEAN: אופציונלי. קובעת אם הכותרות כלולות בכל מקטע. ערך ברירת המחדל הוא false. הוספת כותרת וכותרות משנה בכל הרמות לחלקים מאמצע המסמך יכולה לעזור למנוע אובדן הקשר באחזור ובדירוג של החלקים.

המסוף

כשיוצרים מאגר נתוני חיפוש דרך המסוף, אפשר להפעיל את האפשרות 'חלוקת מסמכים לחלקים'.

שימוש בחלקים משלכם (גרסת טרום-השקה עם רשימת היתרים)

אם כבר חילקתם את המסמכים שלכם לחלקים, אתם יכולים להעלות אותם ל-Gemini Enterprise במקום להפעיל את האפשרויות לחלוקת מסמכים לחלקים.

התכונה 'הוספת נתונים משלכם' היא גרסת טרום-השקה (Preview) עם רשימת היתרים. כדי להשתמש בתכונה הזו, צריך לפנות לצוות שאחראי על חשבון Google שלכם.

הצגת רשימה של חלקי מסמך

כדי להציג רשימה של כל החלקים של מסמך ספציפי, קוראים לשיטה Chunks.list.

REST

כדי להציג רשימה של חלקי מסמך, מבצעים את השלב הבא:

מבצעים קריאה ל-Chunks.list:
```
curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫PROJECT_ID: מזהה הפרויקט.
- ‫DATA_STORE_ID: המזהה של מאגר הנתונים.
- ‫DOCUMENT_ID: המזהה של המסמך שממנו רוצים להציג את החלקים.

קבלת נתחים בפורמט JSON ממסמך שעבר עיבוד

אפשר לקבל את כל החלקים ממסמך ספציפי בפורמט JSON באמצעות קריאה ל-method getProcessedDocument. קבלת מקטעים ב-JSON יכולה להיות שימושית אם אתם צריכים להעלות מקטעים למקום אחר או אם אתם מחליטים לייבא מחדש מקטעים ל-Gemini Enterprise באמצעות התכונה bring your own chunks.

REST

כדי לקבל נתחי JSON של מסמך, פועלים לפי השלב הבא:

מבצעים קריאה ל-getProcessedDocument:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"

מחליפים את מה שכתוב בשדות הבאים:

‫PROJECT_ID: מזהה הפרויקט.
‫DATA_STORE_ID: המזהה של מאגר הנתונים.
‫DOCUMENT_ID: המזהה של המסמך שממנו רוצים לקבל נתחים.

קבלת נתחים ספציפיים

כדי לקבל נתח ספציפי, מבצעים קריאה ל-method‏ Chunks.get.

REST

כדי לקבל נתח ספציפי, מבצעים את השלב הבא:

מבצעים קריאה ל-Chunks.get:
```
curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫PROJECT_ID: מזהה הפרויקט.
- ‫DATA_STORE_ID: המזהה של מאגר הנתונים.
- ‫DOCUMENT_ID: המזהה של המסמך שממנו נלקח החלק.
- ‫CHUNK_ID: המזהה של הנתח שרוצים להחזיר.

החזרת מקטעים בבקשות חיפוש

אחרי שמוודאים שהנתונים חולקו לחלקים בצורה נכונה, Gemini Enterprise יכול להחזיר נתונים מחולקים בתוצאות החיפוש.

התשובה מחזירה נתח שרלוונטי לשאילתת החיפוש. בנוסף, אתם יכולים לבחור להחזיר נתחים סמוכים שמופיעים לפני ואחרי הנתח הרלוונטי במסמך המקור. חלקים סמוכים יכולים להוסיף הקשר ולשפר את הדיוק.

REST

כדי לקבל נתונים בחלקים:

כשמבצעים בקשת חיפוש, מציינים את ContentSearchSpec.SearchResultMode בתור chunks.
```
contentSearchSpec": {
  "searchResultMode": "RESULT_MODE",
  "chunkSpec": {
       "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
       "numNextChunks": NUMBER_OF_NEXT_CHUNKS
   }
}
```
- ‫RESULT_MODE: קובע אם תוצאות החיפוש יוחזרו כמסמכים מלאים או בחלקים. כדי לקבל נתחים, צריך להפעיל את האפשרות 'חלוקת מסמכים לנתחים' במאגר הנתונים. הערכים הקבילים הם documents ו-chunks. אם האפשרות 'חלוקת מסמכים' מופעלת במאגר הנתונים, ערך ברירת המחדל הוא chunks.
- NUMBER_OF_PREVIOUS_CHUNKS: מספר החלקים שיוחזרו ושקדמו לחלק הרלוונטי. הערך המקסימלי המותר הוא 5.
- NUMBER_OF_NEXT_CHUNKS: מספר החלקים שיוחזרו מיד אחרי החלק הרלוונטי. הערך המקסימלי המותר הוא 5.

דוגמה

בדוגמה הבאה של בקשת שאילתת חיפוש, הערך של SearchResultMode מוגדר ל-chunks, המערכת מתבקשת לספק נתונים של מקטע אחד קודם ומקטע אחד הבא, ומספר התוצאות מוגבל למקטע רלוונטי אחד באמצעות pageSize.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

בדוגמה הבאה מוצגת התגובה שמוחזרת לשאילתה לדוגמה. התשובה מכילה את החלקים הרלוונטיים, את החלקים הקודמים והבאים, את המטא-נתונים של המסמך המקורי ואת טווח הדפים במסמך שממנו נגזר כל חלק.

תשובה

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

המאמרים הבאים

יצירת מאגר נתונים מאינטראקציה ישירה (First-Party)

ניתוח ופיצול מסמכים קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

ניתוח מסמכים

השוואה בין הזמינות של מנתחי נתונים

מנתח OCR לקובצי PDF

מנתח פריסות

הערה לתמונה

הערות בטבלה

החרגת תוכן HTML

מנתח דיגיטלי

ציון מנתח ברירת מחדל

REST

המסוף

דוגמה

הגדרת שינויים מברירת המחדל של מנתח לכל סוגי הקבצים

REST

המסוף

דוגמה

עריכת ניתוח מסמכים למאגרי נתונים קיימים

הגדרת מנתח פריסה להחרגת תוכן HTML

REST

דוגמה

קבלת מסמכים מנותחים ב-JSON

REST

שימוש במסמך מנותח משלכם

Chunk documents for RAG

מגבלות

אפשרויות לחלוקת המסמך לחלקים

הפעלת חלוקת המסמך לחלקים

REST

המסוף

שימוש בחלקים משלכם (גרסת טרום-השקה עם רשימת היתרים)

הצגת רשימה של חלקי מסמך

REST

קבלת נתחים בפורמט JSON ממסמך שעבר עיבוד

REST

קבלת נתחים ספציפיים

REST

החזרת מקטעים בבקשות חיפוש

REST

דוגמה

תשובה

המאמרים הבאים

ניתוח ופיצול מסמכים