Agent Search 可以在每次搜索响应中提供搜索代码段、提取式答案和提取式片段,从而增强搜索结果。
代码段:代码段是指从 搜索结果文档中提取的一小段文本,用于预览搜索结果的内容。 它包含您可以在界面中呈现的命中项突出显示。代码段通常显示在每条搜索结果下方,以帮助最终用户评估该结果的相关性和实用性。代码段适用于包含非结构化数据和网站数据(包括基本网站搜索和高级网站索引编制)的数据存储区。
**提取式答案**:提取式答案 是指随每条搜索结果返回的原文文本。它是直接从原始文档中提取的。提取式答案通常显示在网页顶部附近,以便向最终用户提供与查询相关的简短答案。提取式答案适用于包含非结构化数据和高级网站索引编制的数据存储区。
提取式片段:提取式 片段是指随每条搜索结果返回的原文文本。提取式片段通常比提取式答案更详细。 提取式片段可以作为查询的答案显示,也可用于执行后处理任务,还可用作大语言模型的输入,以生成答案或新文本。提取式片段适用于包含非结构化数据和高级网站索引编制的数据存储区。
示例
以下示例有助于说明代码段、提取式答案和提取式片段之间的区别。
查询: “什么是 Agent Search?”
代码段:
为此,我们宣布推出新的 Agent Search, 这是开发者快速开始创建 gen 应用(例如机器人)的最快方式,…
提取式答案:
借助 Agent Search,开发者可以快速发布新体验,包括机器人、聊天界面、自定义搜索引擎、数字助理等。开发者可以通过 API 访问 Google 的基础模型,并使用开箱即用的模板在几分钟或几小时内快速开始创建 gen 应用。
提取式片段:
企业和政府机构也希望借助这项新的 AI 技术,让客户、合作伙伴和员工互动更有效、更有帮助。为此,我们宣布推出新的 Agent Search。
借助 Agent Search,开发者可以快速发布新体验,包括机器人、聊天界面、自定义搜索引擎、数字助理等。开发者可以通过 API 访问 Google 的基础模型,并使用开箱即用的模板在几分钟或几小时内快速开始创建 gen 应用。借助 Agent Search,开发者还可以:
- 结合组织数据和信息检索技术,提供相关答案。
- 搜索和回复的内容不仅限于文本。
- 将自然对话与结构化流程相结合。
- 不仅提供信息,还可进行交易。
准备工作
根据您拥有的应用类型,完成以下前提条件:
非结构化应用:
网站应用:
片段
片段是从每条搜索结果文档中提取的简短原文。它们包含粗体 HTML 标记中的命中项突出显示,用于在界面中呈现搜索结果的预览。通常,片段会呈现为搜索结果下方的预览文本,以帮助最终用户确定点击该搜索结果是否有用。
片段适用于网站搜索和非结构化搜索。
获取片段
如需获取片段,请执行以下操作:
发送包含
ContentSearchSpec.SnippetSpec并将returnSnippet设置为 true 的搜索请求。以下
SnippetSpec示例指定可以为每条搜索结果返回一个片段。"contentSearchSpec": { "snippetSpec": { "returnSnippet": true } }
returnSnippet:如果设置为true,则返回一个片段。
从搜索响应中获取片段。片段会随每条搜索结果在
derivedStructData.snippets中返回。在此示例中,文档作为搜索响应中的一条结果返回,结果中包含一个带有粗体命中项突出显示的代码段:
{ "id": "54321", "document": { "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321", "id": "54321", "derivedStructData": { "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf", "snippets": [ { "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.", "snippet_status": "SUCCESS" } ] } } }
snippet:包含为文档搜索结果生成的片段。 命中项突出显示包含在粗体 HTML 标记中。snippet_status:如果生成了片段,此字段将返回SUCCESS。如果未生成任何片段,此字段将返回NO_SNIPPET_AVAILABLE。
提取式答案
提取式答案是指从文档中逐字逐句提取的一段文本。当文档在搜索响应中作为搜索结果返回时,系统可以随该结果返回相关的提取式答案。
提取式答案可以是段落、表格或项目符号列表等文本,这些文本是从搜索结果文档中提取的。提取式答案比提取式片段 短。
在需要精确的原文答案而不是改述的摘要的情况下,提取式答案可以替代摘要式回答。
提取式答案适用于包含非结构化数据和高级网站索引编制的数据存储区。
获取提取式答案
如需获取提取式答案,请执行以下操作:
发送使用
ContentSearchSpec.extractiveContentSpec来指定maxExtractiveAnswerCount的搜索请求。以下
extractiveContentSpec示例指定可以为每条搜索结果返回一个答案。"contentSearchSpec": { "extractiveContentSpec": { "maxExtractiveAnswerCount": 1 } }
maxExtractiveAnswerCount:为每条搜索结果返回的提取式答案的数量。默认值为 0,最大值为 5。
从搜索响应中获取提取式答案。提取式答案会随每条搜索结果在
extractive_answers中返回。在此示例中,文档作为搜索响应中的一条结果返回,结果中包含一个提取式答案:
{ "id": "54321", "document": { "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321", "id": "54321", "derivedStructData": { "extractive_answers": [ { "pageNumber": "2", "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion." } ], "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf" } } }
pageNumber:如果可以从文档中提取页码,此字段会指明答案的提取位置。content:提取式答案的内容。
提取式片段
提取式片段是指从搜索结果文档中逐字逐句提取的一段文本。提取式片段与提取式 答案类似,但提取式片段通常更完整、更 详细。通常,提取式片段用作您自己的 LLM 的输入,以生成答案或新文本。
提取式片段可以是多个段落,包括表格和项目符号列表等格式化文本。
提取式片段适用于包含非结构化数据和高级网站索引编制的数据存储区。
提取式片段选项
提取式片段提供以下选项:
片段数量:您可以指定为每条搜索结果 返回最多 10 个提取式片段。
相关性得分:相关性得分基于 查询与提取的片段的相似度。您可以指定返回带有相关性得分的提取式片段。得分范围为 -1.0(相关性较低)到 1.0(相关性较高)。开启相关性得分可能会增加延迟时间。
相邻片段:您可以设置
numPreviousSegments和numNextSegments,以从相关片段紧邻的前后位置获取最多 3 个片段。相邻片段可以为相关片段添加上下文信息并提高准确性。开启相邻片段可能会增加延迟时间。
获取提取式片段
以下步骤展示了如何获取非结构化数据的提取式片段。 您可以按照类似的步骤获取网站数据的提取式片段。
发送使用
ContentSearchSpec.extractiveContentSpec来指定maxExtractiveSegmentCount的搜索请求。以下
extractiveContentSpec示例指定可以为每条搜索结果返回一个片段。"contentSearchSpec": { "extractiveContentSpec": { "maxExtractiveSegmentCount": 1 } }
maxExtractiveSegmentCount:为每条搜索结果返回的提取式片段的数量。默认值为 0,最大值为 10。
其他选项:
returnExtractiveSegmentScore:设置为true,以便随返回的每个片段返回相关性得分。numPreviousSegments:在相关片段之前返回的相邻片段的数量。默认值为 0,最大值为 3。使用相邻片段可能会增加延迟时间。numNextSegments:在相关片段之后返回的相邻片段的数量。默认值为 0,最大值为 3。使用相邻片段可能会增加延迟时间。
如需详细了解这些选项,请参阅提取式片段 选项。
从搜索响应中获取片段。片段会随每条搜索结果在
extractive_segments中返回。在此示例中,文档作为搜索响应中的一条结果返回,结果中包含一个片段:
{ "id": "54321", "document": { "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321", "id": "54321", "derivedStructData": { "extractive_segments": [ { "pageNumber": "2", "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5" } ], "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf" } } }
pageNumber:如果可以从文档中提取页码,此字段会指明答案的提取位置。content:提取式片段的内容。