应用和数据存储区简介

本页面介绍了 Gemini Enterprise 应用和数据存储区。

借助 Gemini Enterprise,您可以创建应用并将其连接到数据存储区。一个给定的 Google Cloud 项目可以包含多个应用。

关键术语:

  • 应用:Gemini Enterprise 应用可为最终用户提供搜索结果、操作和代理。在 API 的上下文中,术语“应用”与“引擎”可以互换使用。

  • 数据存储区:数据存储区是一种实体,其中包含从第一方数据源(例如 Cloud Storage)或第三方应用(例如 Jira 或 Salesforce)提取的数据。包含第三方应用数据的数据存储区也称为数据连接器

应用与数据存储区之间的关系

应用必须连接到数据存储区,才能使用其中的数据来提供搜索结果、答案或操作。

应用与数据存储区之间存在多对多的关系。当多个数据存储区连接到单个应用时,这称为混合搜索。如需了解将搜索应用连接到多个数据存储区的限制,请参阅关于混合搜索

应用创建和数据注入方法

创建应用和注入数据的方式取决于您拥有的数据类型:

  • 对于第三方数据,您需要使用 Google Cloud 控制台(而非 API)来创建应用和注入数据。

  • 对于其他数据,您可以使用 Google Cloud 控制台或 API。

文档

每个数据存储区都包含一个或多个称为“文档”的数据记录。文档内容取决于数据存储区中的数据类型:

  • 第三方数据源的数据。就此类数据而言,文档是特定于第三方数据源的实体,例如 Jira 问题或 Confluence 空间。

  • 结构化数据。文档是表格中的行或者具有特定架构的 JSON 记录。您可以自己提供此架构,也可以让 Gemini Enterprise 从注入的数据中提取架构。

  • 非结构化数据。文档是 HTML、包含嵌入文本的 PDF 或 TXT 格式的文件。预览版支持 PPTX 和 DOCX 格式。

数据存储区和应用

在 Gemini Enterprise 中,数据存储区有多种类型。一个数据存储区只能包含一种类型的数据。

第三方数据存储区的结构化数据

以下第三方数据源连接器在预览版中提供,但需要加入许可名单:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

来自这些第三方的数据被视为结构化数据。

设置新连接器时,您需要选择同步频率。您还可以选择要同步的实体。实体因来源而异,例如 Jira 的问题、Confluence 的内容和空间。系统会为每个实体创建一个唯一的数据存储区。实体数据存储区按连接器实例分组。

后续步骤

结构化数据

包含结构化数据的数据存储区可针对结构化数据启用语义搜索或推荐功能。您可以从 BigQuery 或 Cloud Storage 导入数据。您还可以通过 API 手动上传结构化 JSON 数据。

例如,您可以针对电子商务体验中的商品目录启用搜索或推荐功能,也可以针对提供商搜索或推荐功能启用医生目录。

Gemini Enterprise 会自动检测您导入的数据的架构。您可以选择为数据提供架构。为数据提供架构通常可以提高结果质量。

后续步骤

非结构化数据

非结构化数据存储区可针对文档和图片等数据启用语义搜索或推荐功能。

非结构化数据存储区支持 HTML、包含嵌入文本的 PDF 和 TXT 格式的文档。预览版支持 PPTX 和 DOCX 格式。

搜索会以 10 个网址的形式提供结果,并针对自然语言查询提供摘要式回答。文档必须上传到具有适当访问权限的 Cloud Storage 存储桶。例如,金融机构可以针对其金融研究出版物的私有语料库启用搜索或推荐功能,而生物技术公司可以针对其医学研究的私有知识库启用搜索或推荐功能。

后续步骤

混合搜索简介

借助混合搜索,您可以将多个数据存储区连接到单个应用。这样,应用就可以搜索多个来源和多种类型的数据。

如需创建混合搜索应用,请在创建新应用时选择多个数据存储区。如果您在创建过程中未选择多个数据存储区,则之后无法添加其他数据存储区。

获取搜索结果时,您可以搜索所有数据存储区,也可以过滤结果以仅显示来自单个数据存储区的结果。

混合搜索存在以下限制:

  • 添加和移除数据存储区:
    • 如需为应用启用混合搜索,您必须在创建应用时至少为其连接两个数据存储区。
    • 您可以向混合搜索应用添加数据存储区或从中移除数据存储区,但该应用在任何时候都不能连接少于两个数据存储区。
    • 如果您在创建搜索应用期间将单个数据存储区连接到该应用,则无法添加或移除该数据存储区。
  • 不支持包含使用 BigQuery 导入的非结构化数据的数据存储区。
  • 混合搜索允许在搜索请求中使用以下字段:
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • 混合搜索允许 dataStoreSpecs 中包含以下字段:
    • dataStore
    • boostSpec:如果同时为 SearchRequestdataStoreSpecs 指定了提升规范,则这两个提升规范都会应用于搜索结果
    • filter:如果同时为 SearchRequestdataStoreSpecs 指定了过滤条件,则这两个过滤条件都会应用于搜索结果
  • 对于混合应用,支持对投放配置执行创建、读取、更新和删除 (CRUD) 操作。在服务配置中,只能添加或更新以下字段:
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • 对于混合搜索应用,支持对以下控件执行 CRUD 操作:
    • boostAction
    • synonymAction
    • filterAction
  • 每个搜索应用的数据存储区数量上限为 50 个。
  • 如果一个数据存储区使用 CMEK 配置,则所有其他数据存储区也必须使用相同的 CMEK 配置。