קבלת תקצירים ותוכן שחולץ (גרסה קודמת)

‫Gemini Enterprise יכול לספק קטעי מידע מחיפוש, תשובות שמבוססות על מידע שחולץ וקטעים שמבוססים על מידע שחולץ בכל תשובה לחיפוש, כדי לשפר את התוצאות.

  • קטעי מידע: קטע מידע הוא קטע קצר של טקסט ממסמך תוצאת החיפוש, שנותן תצוגה מקדימה של התוכן של תוצאת החיפוש. הוא כולל הדגשה של התאמות לחיפוש שאפשר להציג בממשק המשתמש. קטעי מידע מוצגים בדרך כלל מתחת לכל תוצאת חיפוש כדי לעזור למשתמשי הקצה להעריך את הרלוונטיות והתועלת של התוצאה. אפשר להשתמש בתקצירים במאגרי נתונים עם נתונים לא מובנים.

  • תשובות חילוץ: תשובת חילוץ היא טקסט מדויק שמוחזר עם כל תוצאת חיפוש. הוא נלקח ישירות מהמסמך המקורי. תשובות חילוץ מוצגות בדרך כלל בחלק העליון של דפי אינטרנט כדי לספק למשתמש תשובה קצרה שרלוונטית לשאילתה שלו בהקשר. תשובות חילוץ זמינות למאגרי נתונים עם נתונים לא מובנים.

  • פלחים שמבוססים על חילוץ: פלח שמבוסס על חילוץ הוא טקסט מדויק שמוחזר עם כל תוצאת חיפוש. קטע מידע שנשלף בדרך כלל ארוך יותר מתשובה שנשלפת. אפשר להציג פלחים שחולצו כתשובה לשאילתה, ואפשר להשתמש בהם כדי לבצע משימות של עיבוד אחרי החילוץ וכקלט למודלים של שפה גדולה (LLM) כדי ליצור תשובות או טקסט חדש. פלחי נתונים לחילוץ זמינים במאגרי נתונים עם נתונים לא מובְנים.

דוגמאות

הדוגמאות הבאות ממחישות את ההבדלים בין קטעי מידע, תשובות שמבוססות על מידע שחולץ וקטעים שמבוססים על מידע שחולץ.

שאילתה: "what is example product?‎"

  • Snippet:

    לכן אנחנו משיקים את Example Google Product, הדרך הכי מהירה למפתחים להתחיל ליצור אפליקציות כמו בוטים, ...

  • תשובה שמבוססת על מידע שקיים בטקסט:

    מוצר Google לדוגמה מאפשר למפתחים להשיק במהירות חוויות חדשות, כולל בוטים, ממשקי צ'אט, מנועי חיפוש בהתאמה אישית, עוזרים דיגיטליים ועוד. למפתחים יש גישה ל-API של מודלים בסיסיים של Google, והם יכולים להשתמש בתבניות מוכנות כדי להתחיל ליצור אפליקציות גנרטיביות תוך דקות או שעות.

  • קטע מידע שנלקח מתוך הטקסט:

    גם עסקים וממשלות רוצים להשתמש בטכנולוגיית ה-AI החדשה הזו כדי לשפר את האינטראקציות עם לקוחות, שותפים ועובדים. כדי לאפשר את זה, אנחנו משיקים את מוצר Google החדש שלנו, Example Google Product.

    מוצר Google לדוגמה מאפשר למפתחים להשיק במהירות חוויות חדשות, כולל בוטים, ממשקי צ'אט, מנועי חיפוש בהתאמה אישית, עוזרים דיגיטליים ועוד. למפתחים יש גישה ל-API של מודלים בסיסיים של Google, והם יכולים להשתמש בתבניות מוכנות כדי להתחיל ליצור אפליקציות גנרטיביות תוך דקות או שעות. בנוסף, מפתחים יוכלו גם:

    • לשלב נתונים ארגוניים וטכניקות לאחזור מידע כדי לספק תשובות רלוונטיות.
    • לחפש ולהגיב ביותר מטקסט.
    • לשלב בין שיחות טבעיות לבין תהליכים מובנים.
    • אל תסתפקו בהעברת מידע – תבצעו עסקאות.

קטעי קוד

קטעי הטקסט הם קטעים קצרים שחולצו מילה במילה מכל מסמך בתוצאות החיפוש. הם כוללים הדגשה של התאמות בתגי HTML מודגשים לצורך עיבוד תצוגות מקדימות של תוצאות חיפוש בממשק משתמש. בדרך כלל, קטעי הטקסט מוצגים כטקסט תצוגה מקדימה מתחת לתוצאת חיפוש, כדי לעזור למשתמשי הקצה להחליט אם ללחוץ על תוצאת החיפוש הזו.

אפשר להשתמש בתקצירים לנתונים לא מובנים.

קבלת קטעי טקסט

כדי לקבל תקצירים:

  1. שולחים בקשת חיפוש שכוללת את ContentSearchSpec.SnippetSpec ומגדירים את returnSnippet כ-true.

    בדוגמה הבאה של SnippetSpec מצוין שאפשר להחזיר תקציר לכל תוצאת חיפוש.

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet: אם הערך הוא true, מחזירה קטע קוד.
  2. קבלת תקצירים מהתגובה לחיפוש. תקצירים מוחזרים עם כל תוצאת חיפוש ב-derivedStructData.snippets.

    בדוגמה הזו של מסמך שהוחזר כאחת מהתוצאות בתגובה לחיפוש, נכלל קטע עם הדגשה של מילים רלוונטיות בתוצאה:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet: מכיל קטע שנוצר עבור תוצאת החיפוש של המסמך. ההדגשה של ההיט כלולה בתגי HTML מודגשים.
    • snippet_status: אם נוצר תקציר, השדה הזה מוחזר כ-SUCCESS. אם לא נוצר תקציר, השדה הזה יוחזר כ-NO_SNIPPET_AVAILABLE.

תשובות שמבוססות על מידע שחולץ

תשובה חילוצית היא קטע טקסט שנלקח מילה במילה ממסמך. כשמסמך מוחזר כתוצאת חיפוש בתגובה לחיפוש, אפשר להחזיר עם התוצאה הזו תשובה רלוונטית שמבוססת על מידע שחולץ מהמסמך.

תשובה חילוצית יכולה להיות טקסט כמו פסקה, טבלה או רשימה עם תבליטים שנלקח ממסמך תוצאת החיפוש. תשובות חילוץ קצרות יותר מקטעי חילוץ.

אפשר להשתמש בתשובות חילוץ כחלופה לתשובות מסוכמות במקרים שבהם עדיפות תשובות מדויקות ומילוליות על פני סיכומים שנוסחו מחדש.

תשובות חילוץ זמינות למאגרי נתונים עם נתונים לא מובנים.

קבלת תשובות חילוץ

כדי לקבל תשובות שמבוססות על מידע שחולץ:

  1. שולחים בקשת חיפוש שמשתמשת ב-ContentSearchSpec.extractiveContentSpec כדי לציין את maxExtractiveAnswerCount.

    בדוגמה הבאה של extractiveContentSpec מצוין שאפשר להחזיר תשובה לכל תוצאת חיפוש.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount: מספר התשובות שחולצו שיוחזרו לכל תוצאת חיפוש. ערך ברירת המחדל הוא 0 והערך המקסימלי הוא 5.
  2. קבלת תשובות חילוץ מהתגובה של החיפוש. תשובות חילוץ מוחזרות עם כל תוצאת חיפוש ב-extractive_answers.

    בדוגמה הזו של מסמך שהוחזר כאחת מהתוצאות בתגובה לחיפוש, נכללה תשובה חילוצית עם התוצאה:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: אם אפשר לחלץ את מספרי הדפים מהמסמך, בשדה הזה מצוין המקום שממנו נחלצה התשובה.
    • content: התוכן של התשובה שחולצה.

פלחים שנוצרו על סמך מידע קיים

קטע חילוץ הוא קטע טקסט שחולץ מילה במילה ממסמך של תוצאת חיפוש. פלחים שמבוססים על מידע חילוצי דומים לתשובות שמבוססות על מידע חילוצי, אבל הם בדרך כלל מלאים ומפורטים יותר. בדרך כלל, פלחים שמבוססים על חילוץ משמשים כקלט למודלים מסוג LLM משלכם כדי ליצור תשובות או טקסט חדש.

פלחים שמבוססים על חילוץ יכולים להיות כמה פסקאות, כולל טקסט מעוצב כמו טבלאות ורשימות עם תבליטים.

פלחי מידע שנוצרו על סמך מידע חלקי זמינים במאגרי נתונים עם נתונים לא מובְנים.

אפשרויות של פלחים שנוצרו על ידי חילוץ

אלו האפשרויות שזמינות לפלחים שמבוססים על חילוץ:

  • מספר הפלחים: אפשר לציין עד 10 פלחים שיוחזרו לכל תוצאת חיפוש.

  • ציוני רלוונטיות: ציוני הרלוונטיות מבוססים על הדמיון בין השאילתה לבין הפלח שחולץ. אפשר לציין שקטעים שחולצו יוחזרו עם ציוני רלוונטיות. הציונים נעים בין ‎-1.0 (פחות רלוונטי) לבין 1.0 (יותר רלוונטי). הפעלת ציוני הרלוונטיות עלולה להגדיל את זמן האחזור.

  • פלחים סמוכים: אפשר להגדיר את numPreviousSegments ואת numNextSegments כדי לקבל עד 3 פלחים מהזמן שלפני הפלח הרלוונטי ומהזמן שאחריו. פלחים סמוכים יכולים להוסיף הקשר ודיוק לפלח הרלוונטי.

    הפעלת פלחים סמוכים עלולה להגדיל את זמן האחזור.

קבלת פלחים חילוציים

בשלבים הבאים מוסבר איך לקבל פלחי מידע מנתונים לא מובְנים.

  1. שולחים בקשת חיפוש שמשתמשת ב-ContentSearchSpec.extractiveContentSpec כדי לציין את maxExtractiveSegmentCount.

    בדוגמה הבאה של extractiveContentSpec מצוין שאפשר להחזיר פלח אחד לכל תוצאת חיפוש.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount: מספר המקטעים שחולצו ויוחזרו לכל תוצאת חיפוש. ערך ברירת המחדל הוא 0 והערך המקסימלי הוא 10.

    אפשרויות נוספות:

    • returnExtractiveSegmentScore: אם מגדירים את הערך true, מוחזר ציון רלוונטיות עם כל פלח שמוחזר.
    • numPreviousSegments: מספר הפלחים הסמוכים שיוחזרו לפני הפלח הרלוונטי. ערך ברירת המחדל הוא 0 והערך המקסימלי הוא 3. שימוש בפלחים סמוכים עלול להגדיל את זמן האחזור.
    • numNextSegments: מספר המקטעים הסמוכים שיוחזרו אחרי המקטע הרלוונטי. ערך ברירת המחדל הוא 0 והערך המקסימלי הוא 3. שימוש בפלחים סמוכים עלול להגדיל את זמן האחזור.

    מידע נוסף על האפשרויות האלה זמין במאמר בנושא אפשרויות של פלחים שמבוססים על חילוץ.

  2. קבלת פלחים מתגובת החיפוש. הפלחים מוחזרים עם כל תוצאת חיפוש ב-extractive_segments.

    בדוגמה הזו של מסמך שהוחזר כאחת מהתוצאות בתגובה לחיפוש, נכלל פלח עם התוצאה:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: אם אפשר לחלץ את מספרי הדפים מהמסמך, בשדה הזה מצוין המקום שממנו נחלצה התשובה.
    • content: התוכן של הקטע שחולץ.

המאמרים הבאים