连接器和数据存储区简介

连接器可将 Google 和第三方数据源中的数据导入 Gemini Enterprise,并将其存储在专用数据存储区中。本文档简要介绍了这些连接器。将数据集中存储在 Gemini Enterprise 中可提高数据可访问性、搜索功能和分析能力。

一张概览图片,显示了连接器如何将数据导入 Gemini Enterprise。
连接器概览

连接器和数据存储区概念

数据存储区
每个数据源都支持一组实体类型。例如,Jira Cloud 具有问题、附件、评论和工时记录等实体,这些实体是该数据源特有的。Gemini Enterprise 会为每个实体创建单独的数据存储区。因此,当您使用 Google Cloud 控制台创建数据存储区时,您会获得一个数据存储区集合,其中包含这些已提取的数据实体。
数据联邦与数据注入(索引)
数据联合直接从指定的数据源检索信息。由于数据不会复制到 Vertex AI Search 索引中,因此您无需担心数据存储问题。不过,由于数据未编入索引,搜索质量可能会降低。

数据注入(编入索引)会将数据复制到 Vertex AI Search 索引中。这有助于提高搜索质量。不过,此过程会消耗更多存储空间和时间。
非结构化数据
支持的数据格式因数据源和实体类型而异。如果实体中的内容以非结构化格式(例如 HTML、PDF、TXT、PPTX 或 DOCX)存储,Vertex AI Search 会创建非结构化数据存储区。 如需了解详情和支持的文件类型,请参阅非结构化搜索
结构化数据
支持的数据格式因数据源和实体类型而异。如果实体中的内容以结构化格式存储,Vertex AI Search 会创建结构化数据存储区。如需了解详情,请参阅结构化搜索
数据架构
数据架构定义了数据结构。使用 Gemini Enterprise 导入结构化数据时,系统会自动检测架构。 您可以使用自动检测到的架构,也可以使用 API 定义架构。 如需了解详情,请参阅提供或自动检测架构
数据存储区区域
在提取数据时,您需要选择要存储数据的区域,例如全球、美国或欧盟。如需了解详情,请参阅 Gemini Enterprise 位置。存储在美国或欧盟区域中的数据需要进行数据加密。默认加密方式是使用 Google-owned and Google-managed encryption key,但您也可以使用客户管理的加密密钥
数据同步

数据同步会从原始数据源提取并更新身份数据(例如角色、权限和用户)和实体数据(例如与特定数据源相关的数据)。如需了解详情,请参阅数据同步类型和时间表

数据同步类型和时间安排

数据同步会捕获实体数据、身份数据或两者兼而有之,并更新 Gemini Enterprise 中数据存储区的内容。

同步类型

Gemini Enterprise 中的数据存储区使用两种基本类型的数据同步:

  • 完全同步会捕获第三方应用或服务的完整状态。 包括添加、更新和删除。完全同步会替换数据存储区的现有内容。

  • 增量同步会定期捕获自上次同步以来添加或更新的实体数据。它不会同步身份数据或实体数据的删除操作。

您可以为以下数据类型单独安排完全同步:

  • 实体同步会捕获特定于第三方数据源的数据。例如,Jira 等系统的数据存储区可以同步问题、工作日志、评论和附件。实体同步不包含身份信息。

  • 身份同步会捕获与 ACL 群组关联的用户账号的相关数据。

身份数据同步与完全同步之间的交互

为了解单个身份同步运行如何与完整同步运行搭配使用,不妨考虑一个示例场景,其中包含两个网页:page_1(与 ACL 群组 group_1 相关联)和 page_2(与 ACL 群组 group_2 相关联)。

  1. 系统会运行初始身份同步,并检索有关群组 group_1group_2 的信息。

    • 假设 group_1 包含用户 user_1

    • 假设 group_2 包含用户 user_2

    此身份同步会建立以下映射:

    • user_1 映射到 group_1

    • user_2 映射到 group_2

  2. 在身份数据同步的同时,系统会运行完整同步,同时提取 page_1page_2

    此完全同步会建立以下映射:

    • user_1有权访问page_1(通过 group_1)。

    • user_2有权访问page_2(通过 group_2)。

同步时间安排

对于每个数据存储区,您可以为不同的同步类型选择频次:

  • 您可以同时安排每 3 小时、6 小时、12 小时、1 天或 3 天进行一次所有身份数据和实体数据的完全同步。

  • 您可以单独安排所有身份数据的独立完全同步,以及所有实体数据的独立完全同步,并使用以下任一自定义同步频率:

    • 实体数据:每 3 小时、6 小时、12 小时、1 天、3 天、5 天和 7 天。

    • 身份数据:每 30 分钟、1 小时、3 小时、6 小时、12 小时、1 天、3 天、5 天和 7 天。

  • 您可以安排每 3 小时、6 小时、12 小时、1 天、3 天、5 天或 7 天进行一次更新或添加的实体数据增量同步。默认情况下,系统每 3 小时执行一次增量同步。

频次建议

选择与提取的记录量和建议的每秒查询次数 (QPS) 相符的数据同步频率。

下表显示了 1 天、3 天、5 天和 7 天同步的典型检索记录数。实际记录数可能会因数据源及其配置而异。

QPS 记录 1 天同步的音量 记录 3 天同步的交易量 5 天同步的记录量 记录 7 天同步的音量
5 43.2 万 129.6 万 216 万 3M
10 864k 2.592M 432 万 6 个月
20 170 万 510 万 8.5M 1190 万
50 430 万 1290 万 2150 万 3010 万
100 860 万 25.8M 4,300 万 6,020 万

暂停和恢复同步

您可以暂停和恢复完全同步作业和增量同步作业:

  • 当您暂停某种同步类型时,数据存储区会取消正在进行的相应类型的同步,并停止安排相应类型的新同步。

  • 当您恢复某种同步类型时,数据存储区会根据上次的预定同步时间安排新的同步,但不会继续之前中断的同步。

例如,如果您在完全同步正在进行时暂停完全同步,数据存储区会取消该同步。如果您稍后恢复完全同步,数据存储区会自动根据完全同步时间表安排新的完全同步。

Google 数据源

您可以连接到 Google 数据源,例如 BigQuery、Spanner 和 Google 云端硬盘。

Google 数据源核对清单

在向 Gemini Enterprise 发送数据之前,请查看以下清单:

支持的 Google 数据源

Google 云端硬盘 Gmail Google 日历 人员搜索
Google 云端硬盘的图标。 Gmail 的图标。 Google 日历的图标。 人员搜索的图标。

第三方数据源

第三方数据存储区可将第三方应用数据注入到 Gemini Enterprise 中。

第三方数据源的核对清单

在将第三方数据源关联到 Gemini Enterprise 之前,请查看以下清单:

  • 必须为某些数据源配置特定范围和权限。第三方应用的管理员必须查看连接数据源所需的凭据,并设置身份验证和权限。如需了解具体范围和权限,请参阅相应第三方数据源的文档。

  • 为数据存储区设置访问权限控制。如需了解详情,请参阅身份和权限

  • 确定数据应联合还是提取(编入索引)

  • 如果数据已注入,请确保您用于将数据注入到数据源中的用户凭据对资源没有限制。

  • 确定数据同步的频率。

  • 如果您使用的是客户管理的加密密钥 (CMEK),请创建多区域密钥和单区域密钥。如需了解详情,请参阅为第三方数据存储注册单区域密钥

  • 如果您有个人身份信息 (PII),并打算使用自动补全功能来提供搜索查询建议,请参阅防范 PII 泄露

支持的第三方数据源

Microsoft Entra ID Microsoft OneDrive Microsoft Outlook Microsoft SharePoint
Microsoft Entra ID 的图标。 OneDrive 的图标。 Microsoft Outlook 的图标。 SharePoint 的图标。
Jira Cloud Confluence Cloud ServiceNow
Jira Cloud 的图标。 Confluence Cloud 的图标。 ServiceNow 的图标。