スニペットと抽出されたコンテンツを取得する

Gemini Enterprise では、検索スニペット、抜粋された回答、抜粋されたセグメントを各検索レスポンスで提供して、結果を改善できます。

  • スニペット: スニペットは、検索結果のドキュメントから抽出された短いテキストで、検索結果のコンテンツのプレビューとして機能します。該当項目の強調表示が含まれており、UI で表示できます。通常、スニペットは各検索結果の下に表示され、エンドユーザーがその結果の関連性や有用性を判断するのに役立ちます。スニペットは、非構造化データを含むデータストアで使用できます。

  • 抜粋された回答: 抜粋された回答は、検索結果ごとに返される逐語的テキストです。元のドキュメントから直接抽出されます。抜粋された回答は通常、ウェブページの上部付近に表示されます。これは、クエリに文脈的に関連する簡潔な回答をエンドユーザーに提供することを目的としています。抜粋された回答は、非構造化データを含むデータストアで使用できます。

  • 抜粋されたセグメント: 抜粋されたセグメントは、検索結果ごとに返される逐語的テキストです。通常、抜粋されたセグメントは抜粋された回答よりも詳細です。抜粋されたセグメントは、クエリへの回答として表示できます。また、ポスト処理タスクの実行や、大規模言語モデルの入力として使用して、回答や新しいテキストを生成することもできます。抜粋されたセグメントは、非構造化データを含むデータストアで使用できます。

次の例は、スニペット、抜粋された回答、抜粋されたセグメントの違いを示しています。

クエリ: 「example product とは何ですか?」

  • スニペット:

    これを実現するため、Google は新しい Example Google Product を発表します。これは、デベロッパーが bot などのアプリの作成を迅速に開始できる最も速い方法です。

  • 抜粋された回答:

    Example Google Product を使用すると、デベロッパーは、bot、チャット インターフェース、カスタム検索エンジン、デジタル アシスタントなどの新しいエクスペリエンスを短期間で開発し、リリースできます。デベロッパーは Google の基盤モデルに API でアクセスでき、すぐに使えるテンプレートを使用して、数分から数時間で生成アプリの作成を開始できます。

  • 抜粋されたセグメント:

    企業や政府機関も、この新しい AI テクノロジーを活用して、顧客、パートナー、従業員とのやり取りをより効果的で有益なものにしたいと考えています。これを実現するため、Google は新しい Example Google Product を発表します。

    Example Google Product を使用すると、デベロッパーは、bot、チャット インターフェース、カスタム検索エンジン、デジタル アシスタントなどの新しいエクスペリエンスを短期間で開発し、リリースできます。デベロッパーは Google の基盤モデルに API でアクセスでき、すぐに使えるテンプレートを使用して、数分から数時間で生成アプリの作成を開始できます。また、Example Google Product を使用すると、デベロッパーは次のこともできます。

    • 組織データと情報検索の手法を組み合わせて、現実の問題に直結する回答を提供できます。
    • テキスト以外の方法で検索や回答を行うことができます。
    • 自然な会話と構造化したフローを組み合わせることができます。
    • 単に通知するだけでなく、対応できます。

スニペット

スニペットは、各検索結果ドキュメントから逐語的に抽出された短い部分です。該当項目が太字の HTML タグで強調表示され、検索結果のプレビューの UI での表示が実現します。通常、スニペットは検索結果の下にプレビュー テキストとして表示され、エンドユーザーがその検索結果をクリックするかどうかを判断するのに役立ちます。

スニペットは非構造化データで使用できます。

スニペットを取得する

スニペットを取得するには:

  1. ContentSearchSpec.SnippetSpec を含む検索リクエストを送信し、returnSnippet を true に設定します。

    次の SnippetSpec の例では、検索結果ごとにスニペットを返せるように指定されています。

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet: true に設定すると、スニペットが返されます。
  2. 検索レスポンスからスニペットを取得します。スニペットは、derivedStructData.snippets 内の各検索結果とともに返されます。

    検索レスポンスの結果の一つとして返されたこのドキュメントの例では、結果とともに該当項目が太字で強調表示されたスニペットが含まれています。

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet: ドキュメント検索結果用に生成されたスニペットが含まれます。 該当項目は、太字の HTML タグで強調表示されています。
    • snippet_status: スニペットが生成された場合、このフィールドは SUCCESS として返されます。スニペットが生成されない場合、このフィールドは NO_SNIPPET_AVAILABLE として返されます。

抜粋された回答

抜粋された回答は、ドキュメントから逐語的に抽出されたテキストの一部です。ドキュメントが検索レスポンスの検索結果として返される場合、関連する抜粋された回答をその結果とともに返すことができます。

抜粋された回答は、検索結果のドキュメントから抽出された段落、表、箇条書きなどのテキストです。抜粋された回答は、抜粋されたセグメントよりも短くなります。

抜粋された回答は、正確な逐語的回答がわかりやすく書き換えられた要約よりも優先される場合に、要約された回答の代わりに使用できます。

抜粋された回答は、非構造化データを含むデータストアで使用できます。

抜粋された回答を取得する

抜粋された回答を取得するには:

  1. ContentSearchSpec.extractiveContentSpec を使用して maxExtractiveAnswerCount を指定する検索リクエストを送信します。

    次の extractiveContentSpec の例では、各検索結果に対して回答を返すことができるように指定しています。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount: 各検索結果に対して返される、抜粋された回答の数。デフォルト値は 0、最大値は 5 です。
  2. 抜粋された回答を検索レスポンスから取得します。抜粋された回答は、extractive_answers で各検索結果とともに返されます。

    検索レスポンスの結果の一つとして返されたこのドキュメントの例では、抜粋された回答が結果とともに含まれています。

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: ドキュメントからページ番号を抽出できる場合、このフィールドは回答の抽出元を示します。
    • content: 抜粋された回答の内容。

抜粋されたセグメント

抜粋されたセグメントは、検索結果ドキュメントからそのまま抜粋されたテキストの一部です。抜粋されたセグメントは抜粋された回答に似ていますが、通常はより完全で詳細です。通常、抜粋されたセグメントは、独自の LLM の入力として使用され、回答や新しいテキストを生成します。

抜粋されたセグメントは複数の段落からなり、表や箇条書きなどの書式設定されたテキストも含みます。

抜粋されたセグメントは、非構造化データを含むデータストアで使用できます。

抜粋されたセグメントのオプション

抜粋されたセグメントでは、次のオプションを使用できます。

  • セグメントの数: 各検索結果で返される抜粋されたセグメントを最大 10 個まで指定できます。

  • 関連性スコア: 関連性スコアは、抜粋されたセグメントとクエリの類似性に基づいています。抜粋されたセグメントは関連性スコアとともに返されるように指定できます。スコアの範囲は -1.0(関連性が低い)~1.0(関連性が高い)です。関連性スコアを有効にすると、レイテンシが増加する可能性があります。

  • 隣接セグメント: numPreviousSegmentsnumNextSegments を設定すると、関連するセグメントの直前と直後から最大 3 つのセグメントを取得できます。隣接セグメントは、関連するセグメントのコンテキストと精度を高めることができます。

    隣接セグメントを有効にすると、レイテンシが増加する可能性があります。

抜粋されたセグメントを取得する

次の手順では、非構造化データの抜粋されたセグメントを取得する方法について説明します。

  1. ContentSearchSpec.extractiveContentSpec を使用して maxExtractiveSegmentCount を指定する検索リクエストを送信します。

    次の extractiveContentSpec の例では、検索結果ごとに 1 つのセグメントが返されるように指定しています。

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount: 各検索結果に対して返される、抜粋されたセグメントの数。デフォルト値は 0、最大値は 10 です。

    その他のオプション:

    • returnExtractiveSegmentScore: 返される各セグメントとともに関連性スコアを返すように true に設定します。
    • numPreviousSegments: 関連するセグメントの前に返す隣接セグメントの数。デフォルト値は 0、最大値は 3 です。隣接セグメントを使用すると、レイテンシが増加する可能性があります。
    • numNextSegments: 関連するセグメントの後に返す隣接セグメントの数。デフォルト値は 0、最大値は 3 です。隣接セグメントを使用すると、レイテンシが増加する可能性があります。

    これらのオプションの詳細については、抜粋されたセグメントのオプションをご覧ください。

  2. 検索レスポンスからセグメントを取得します。セグメントは、extractive_segments の各検索結果とともに返されます。

    検索レスポンスの結果の一つとして返されたこのドキュメントの例では、セグメントが結果とともに含まれています。

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: ドキュメントからページ番号を抽出できる場合、このフィールドは回答の抽出元を示します。
    • content: 抜粋されたセグメントの内容。

次のステップ