连接器可将 Google 和第三方数据源中的数据导入 Gemini Enterprise,并将其存储在专用数据存储区中。本文档简要介绍了这些连接器。将数据集中存储在 Gemini Enterprise 中可提高数据可访问性、搜索功能和分析能力。

连接器和数据存储区概念
数据存储区 |
每个数据源都支持一组实体类型。例如,Jira Cloud 具有问题、附件、评论和工时记录等实体,这些实体是该数据源特有的。Gemini Enterprise 会为每个实体创建单独的数据存储区。因此,当您使用 Google Cloud 控制台创建数据存储区时,您会获得一个数据存储区集合,其中包含这些已提取的数据实体。 |
数据联邦与数据注入(索引) |
数据联合直接从指定的数据源检索信息。由于数据不会复制到 Vertex AI Search 索引中,因此您无需担心数据存储问题。不过,由于数据未编入索引,搜索质量可能会降低。 数据注入(编入索引)会将数据复制到 Vertex AI Search 索引中。这有助于提高搜索质量。不过,此过程会消耗更多存储空间和时间。 |
非结构化数据 |
支持的数据格式因数据源和实体类型而异。如果实体中的内容以非结构化格式(例如 HTML、PDF、TXT、PPTX 或 DOCX)存储,Vertex AI Search 会创建非结构化数据存储区。 如需了解详情和支持的文件类型,请参阅非结构化搜索。 |
结构化数据 |
支持的数据格式因数据源和实体类型而异。如果实体中的内容以结构化格式存储,Vertex AI Search 会创建结构化数据存储区。如需了解详情,请参阅结构化搜索。 |
数据架构 |
数据架构定义了数据结构。使用 Gemini Enterprise 导入结构化数据时,系统会自动检测架构。 您可以使用自动检测到的架构,也可以使用 API 定义架构。 如需了解详情,请参阅提供或自动检测架构。 |
数据存储区区域 |
在提取数据时,您需要选择要存储数据的区域,例如全球、美国或欧盟。如需了解详情,请参阅 Gemini Enterprise 位置。存储在美国或欧盟区域中的数据需要进行数据加密。默认加密方式是使用 Google-owned and Google-managed encryption key,但您也可以使用客户管理的加密密钥。 |
数据同步 |
数据同步会从原始数据源提取并更新身份数据(例如角色、权限和用户)和实体数据(例如与特定数据源相关的数据)。如需了解详情,请参阅数据同步类型和时间表。 |
数据同步类型和时间安排
数据同步会捕获实体数据、身份数据或两者兼而有之,并更新 Gemini Enterprise 中数据存储区的内容。
同步类型
Gemini Enterprise 中的数据存储区使用两种基本类型的数据同步:
完全同步会捕获第三方应用或服务的完整状态。 包括添加、更新和删除。完全同步会替换数据存储区的现有内容。
增量同步会定期捕获自上次同步以来添加或更新的实体数据。它不会同步身份数据或实体数据的删除操作。
您可以为以下数据类型单独安排完全同步:
实体同步会捕获特定于第三方数据源的数据。例如,Jira 等系统的数据存储区可以同步问题、工作日志、评论和附件。实体同步不包含身份信息。
身份同步会捕获与 ACL 群组关联的用户账号的相关数据。
身份数据同步与完全同步之间的交互
为了解单个身份同步运行如何与完整同步运行搭配使用,不妨考虑一个示例场景,其中包含两个网页:page_1
(与 ACL 群组 group_1
相关联)和 page_2
(与 ACL 群组 group_2
相关联)。
系统会运行初始身份同步,并检索有关群组
group_1
和group_2
的信息。假设
group_1
包含用户user_1
。假设
group_2
包含用户user_2
。
此身份同步会建立以下映射:
user_1
映射到group_1
。user_2
映射到group_2
。
在身份数据同步的同时,系统会运行完整同步,同时提取
page_1
和page_2
。此完全同步会建立以下映射:
user_1
有权访问page_1
(通过group_1
)。user_2
有权访问page_2
(通过group_2
)。
同步时间安排
对于每个数据存储区,您可以为不同的同步类型选择频次:
您可以同时安排每 3 小时、6 小时、12 小时、1 天或 3 天进行一次所有身份数据和实体数据的完全同步。
您可以单独安排所有身份数据的独立完全同步,以及所有实体数据的独立完全同步,并使用以下任一自定义同步频率:
实体数据:每 3 小时、6 小时、12 小时、1 天、3 天、5 天和 7 天。
身份数据:每 30 分钟、1 小时、3 小时、6 小时、12 小时、1 天、3 天、5 天和 7 天。
您可以安排每 3 小时、6 小时、12 小时、1 天、3 天、5 天或 7 天进行一次更新或添加的实体数据增量同步。默认情况下,系统每 3 小时执行一次增量同步。
频次建议
选择与提取的记录量和建议的每秒查询次数 (QPS) 相符的数据同步频率。
下表显示了 1 天、3 天、5 天和 7 天同步的典型检索记录数。实际记录数可能会因数据源及其配置而异。
QPS | 记录 1 天同步的音量 | 记录 3 天同步的交易量 | 5 天同步的记录量 | 记录 7 天同步的音量 |
---|---|---|---|---|
5 | 43.2 万 | 129.6 万 | 216 万 | 3M |
10 | 864k | 2.592M | 432 万 | 6 个月 |
20 | 170 万 | 510 万 | 8.5M | 1190 万 |
50 | 430 万 | 1290 万 | 2150 万 | 3010 万 |
100 | 860 万 | 25.8M | 4,300 万 | 6,020 万 |
暂停和恢复同步
您可以暂停和恢复完全同步作业和增量同步作业:
当您暂停某种同步类型时,数据存储区会取消正在进行的相应类型的同步,并停止安排相应类型的新同步。
当您恢复某种同步类型时,数据存储区会根据上次的预定同步时间安排新的同步,但不会继续之前中断的同步。
例如,如果您在完全同步正在进行时暂停完全同步,数据存储区会取消该同步。如果您稍后恢复完全同步,数据存储区会自动根据完全同步时间表安排新的完全同步。
Google 数据源
您可以连接到 Google 数据源,例如 BigQuery、Spanner 和 Google 云端硬盘。
Google 数据源核对清单
在向 Gemini Enterprise 发送数据之前,请查看以下清单:
为数据源设置访问权限控制。如需了解详情,请参阅身份和权限。
确定数据应联合还是提取(编入索引)。
确定数据同步的频率。
如果您使用的是客户管理的加密密钥 (CMEK),请创建多区域密钥。如需了解详情,请参阅为第三方数据源注册单区域密钥。
如果您有个人身份信息 (PII),并打算使用自动补全功能来提供搜索查询建议,请参阅防范 PII 泄露。
支持的 Google 数据源
Google 云端硬盘 | Gmail | Google 日历 | 人员搜索 |
|
|
|
|
第三方数据源
第三方数据存储区可将第三方应用数据注入到 Gemini Enterprise 中。
第三方数据源的核对清单
在将第三方数据源关联到 Gemini Enterprise 之前,请查看以下清单:
必须为某些数据源配置特定范围和权限。第三方应用的管理员必须查看连接数据源所需的凭据,并设置身份验证和权限。如需了解具体范围和权限,请参阅相应第三方数据源的文档。
为数据存储区设置访问权限控制。如需了解详情,请参阅身份和权限
确定数据应联合还是提取(编入索引)。
如果数据已注入,请确保您用于将数据注入到数据源中的用户凭据对资源没有限制。
确定数据同步的频率。
如果您使用的是客户管理的加密密钥 (CMEK),请创建多区域密钥和单区域密钥。如需了解详情,请参阅为第三方数据存储注册单区域密钥。
如果您有个人身份信息 (PII),并打算使用自动补全功能来提供搜索查询建议,请参阅防范 PII 泄露。
支持的第三方数据源
Microsoft Entra ID | Microsoft OneDrive | Microsoft Outlook | Microsoft SharePoint |
![]() |
![]() |
![]() |
![]() |
Jira Cloud | Confluence Cloud | ServiceNow | |
![]() |
![]() |
![]() |