本页面介绍并列出了适用于自定义应用的 Agent Search 的功能。本页面还提供了指向可用功能、教程和核对清单的链接,帮助您开始使用适用于自定义应用的 Agent Search。
什么是适用于自定义应用的 Agent Search?
适用于自定义应用的 Agent Search 是一款功能强大的 Google 品质搜索和内容发现引擎,您可以将其集成到包含网站数据以及其他结构化或非结构化数据的应用中。该搜索功能不仅限于基本的关键字匹配,还使用 AI 提供高度相关的结果、提供个性化的浏览和搜索体验,并根据您的数据生成 AI 回答。
您可以将自定义搜索应用用于公共网站上或结构化/非结构化格式的与行业无关的数据。 此外,Agent Search 还提供其他特定于行业的搜索和推荐应用。
- 如需了解媒体数据,请参阅 媒体搜索和推荐简介。
- 如需了解商务和零售数据,请参阅 AI 商务搜索。
- 如需了解医疗保健数据,请参阅 医疗保健搜索核对清单。
主要功能
Agent Search 的主要功能如下:
- 高质量搜索: 利用 Google 的搜索专业知识来理解用户意图,即使是复杂的查询和自然语言查询也能理解。它结合了关键字搜索和语义搜索,以提供最佳结果。
- 个性化浏览: 提供个性化的结果(无需特定搜索查询)和个性化的 Feed(基于用户的上下文和导航模式)。它非常适合发现体验,可用于查看个性化的类别页面和首页 Feed。
- 数据源: 可与以下各种数据源搭配使用:
- 网站: 将您的公共网站编入索引,并使用高级功能,例如使用网站中的结构化数据来丰富索引。
- 结构化数据: 搜索以定义格式整理的数据,例如数据库、Cloud Storage 中的 JSON 文件或 BigQuery 表格(例如酒店目录、房地产列表和餐厅目录)。
- 非结构化数据: 搜索存储在 Cloud Storage 或 BigQuery 中的文档(例如 PDF、HTML 文件和 TXT 文件)或图片文件(例如 JPEG 和 PNG 文件)。
- 混合搜索: 搜索多个数据存储区,这些存储区会 混合 上述数据源中的数据。例如,您可以创建一个搜索应用,并将其连接到网站数据存储区和文档数据存储区。这样,您的用户就可以一次搜索所有内容。
- 根据数据生成 AI 回答: 根据您的数据生成 AI 回答,并引用源文档。您还可以提出后续问题和相关查询。
- 个性化: 通过学习用户事件(例如点击和转化)中捕获的用户互动,随着时间的推移改进结果和排名。
- 自定义: 提供多种方式来调整和配置搜索和浏览体验,以满足您的业务需求。
概览
下图显示了自定义搜索的关键组件及其协同工作方式:
适用于自定义搜索的 Agent Search 的组件可以解释如下:
- 数据存储区:来自不同数据源的内容存储在 Agent Search 数据存储区中。源数据可以是公共网站数据,也可以是结构化和非结构化数据。
- 数据处理和索引编制:Agent Search 会理解您的数据并为其
编制索引,从而创建可搜索和可检索的表示形式。这包括以下内容:
- 关键字提取: 识别并生成检索正确信息所需的重要术语。
- 使用嵌入进行语义理解: 创建向量嵌入以捕获内容的含义。
- 元数据处理: 使用文档的结构化数据或元数据处理文档。例如,酒店目录中的位置、网页元数据中的修改或创建日期。
- 高级文档解析: 使用 OCR 或布局解析来理解文档结构并为表格、图片和图表等高级信息添加注解。
- 搜索应用:自定义搜索的核心是搜索应用, 该应用连接到一个或多个数据存储区,这些存储区会从不同 来源提取数据。对于混合搜索,数据通过 连接器 注入。您可以在应用级配置搜索和浏览行为。
- 用户查询:用户旨在从
您的应用检索信息的输入,可以分为两种类型:
- 搜索查询:用户使用文本或图片输入有针对性的搜索查询。文本搜索由自动补全功能提供支持。
- 导航查询或浏览:探索性搜索,用于提供个性化的相关内容,无需特定查询。它由用户的过往活动和其他信号(例如当前类别页面和位置)提供支持。
- 检索和排名: 结果的检索和排名有几个子组件:
- 搜索查询理解: Agent Search 使用以下内容分析搜索查询:
- 自然语言处理: 理解意图。
- 具有自然语言理解功能的过滤条件: 将自然语言查询中的位置转换为地理坐标,并将自然语言查询中的条件转换为过滤条件。
- 知识图谱: 消除术语歧义并扩展搜索。
- 可选功能: 包括拼写更正、同义词和查询改写。
- 检索: Agent Search 根据以下方法查找最相关的文档或信息块:
- 搜索关键字匹配: 基于术语的传统搜索。
- 语义搜索: 使用嵌入查找概念上相似的内容。
- 过滤: 应用您配置的任何过滤条件,例如日期、类别或相关性得分。
- 排名: Agent Search 根据以下因素对结果进行排名:
- 相关性: 搜索期间关键字匹配和语义匹配的组合。
- 网站搜索的网络信号: 网页质量和受欢迎程度等因素。
- 提升和掩埋: 您用于提升或降低某些结果的自定义规则。
- 个性化: 从用户互动中学习。此为可选操作,但强烈推荐执行。
- 排序: 应用排序说明,例如按日期排序。
- 搜索查询理解: Agent Search 使用以下内容分析搜索查询:
- 结果和回答生成:
- 搜索结果: 系统会返回相关文档或信息块的排名列表,其中包含可选功能,例如摘要、提取式答案和提取式片段。可以使用服务控件配置所提供的结果。您还可以调整搜索结果。
- 回答生成: 系统会根据排名靠前且相关的结果生成简洁的综合回答,并附带引用。这会使用高级 LLM 功能。
- 个性化浏览: 系统会返回一组个性化的文档,这些文档具有最高的预测互动或转化可能性。此预测使用从用户互动中学习的高级模型。
- 用户事件: 用户互动(例如点击和浏览)的跟踪器,可帮助 Agent Search 学习和改进搜索和个性化功能。用户事件有助于优化您的业务 KPI,包括互动、转化和收入。
主要功能和配置
以下功能和配置适用于您的自定义搜索应用。在每个阶段,您都可以自定义这些设置,以便为用户提供最佳结果。
具体而言,以下是可用的配置:
-
**数据准备**
- 结构化数据的架构:使用字段 名称和类型定义数据的结构。您可以提供自己的架构,也可以让 Agent Search 自动检测架构。如需了解详情,请参阅 提供或自动检测架构。
- 元数据:向结构化或非结构化文档和 网页添加元数据,以改进搜索并启用过滤。如需了解详情,请参阅以下内容:
- 分块:将文档分解成较小的部分,以提高相关性并改进 LLM 处理。如需了解详情,请参阅解析文档和将文档分块。
- 解析:使用以下选项之一提取文本、图片和其他注解:
- 数字解析器,用于 提取机器可读文本。
- 适用于 PDF 的 OCR 解析器,用于 从扫描的 PDF 或图片中提取文本。
- 布局解析器,用于 检测文档结构并为图片和 图表添加注解,以便更好地进行分块和文档理解,这对于复杂文档和 RAG 应用是必需的 。
- 自定义嵌入:上传您自己准备的向量嵌入。 如需了解详情,请参阅 使用自定义嵌入。
- 抓取网站数据
- 从 Cloud Storage 和 BigQuery 注入 结构化和 非结构化数据,或 通过 REST API 注入
- 字段设置:控制如何为搜索和回答 生成配置字段,例如可搜索、可检索或可编入索引。如需了解 详情,请参阅配置字段设置。
- 自动补全:在用户输入时提供查询建议。如需了解更多 信息,请参阅配置自动补全。
- 服务控件:创建规则以修改搜索行为。如需了解详情,请参阅
配置搜索的服务控件。
- 提升/掩埋:根据过滤条件提升或降低特定结果。
- 过滤条件 :根据过滤条件移除结果。
- 同义词:将某些术语视为等效。
- 重定向:针对某些查询将用户发送到特定网址。
- 提升控件:提升 Agent Search 数据存储区内外的结果。
- 搜索调优(预览版):根据查询和文本提取对进一步训练模型。如需了解详情,请参阅 通过搜索调整改进搜索结果。
- 网站专用配置:
- 高级索引编制:如需了解详情,请参阅 开启高级网站索引编制。
- 刷新网页:您可以使用 自动或手动刷新定期刷新网站中的文档,也可以选择 基于站点地图的刷新。
- 获取回答和跟进搜索。
- 获取搜索摘要。
- 获取片段和提取式内容。
- 生成需要用户事件的个性化浏览体验