设置 Microsoft OneDrive 数据存储区

本页面介绍了如何创建数据存储区并将 Microsoft OneDrive 关联到 Gemini Enterprise。

准备工作

在设置 Microsoft OneDrive 连接之前,请确保满足以下条件。

  1. 授予 Discovery Engine Editor 角色 (roles/discoveryengine.editor)。用户必须具有此角色才能创建数据存储区。如需授予此角色,请执行以下操作:

    1. 在 Google Cloud 控制台中,前往 IAM 页面。

      进入 IAM

    2. 找到相应用户账号,然后点击修改图标 修改
    3. 向用户授予 Discovery Engine Editor 角色。如需了解详情,请参阅 IAM 角色和权限

  2. Microsoft Entra ID 中将 Gemini Enterprise 注册为 OAuth 2.0 应用,并获取以下凭据

    • 客户端 ID

    • 客户端密钥

    • 租户 ID

  3. 获得 Microsoft OneDrive 管理员授权,配置 Microsoft API 应用权限

创建 Microsoft OneDrive 数据存储区

如需创建 Microsoft OneDrive 数据存储区,请执行以下步骤:

  1. 在 Google Cloud 控制台中,前往 Gemini Enterprise 页面。

    Gemini Enterprise

  2. 选择或创建 Google Cloud 项目。

  3. 在导航菜单中,点击数据存储区

  4. 点击 创建数据存储区

  5. 来源部分中,搜索 Microsoft OneDrive,然后点击选择

  6. 数据部分:

    1. 连接器模式部分,选择数据注入联合搜索作为连接模式。
    2. 点击继续

    3. 身份验证设置部分中,根据您选择的连接模式配置身份验证。

      1. 提供以下身份验证详细信息:

        • 客户端 ID:在贵组织的 Microsoft Entra ID 中注册的应用的唯一标识符。
        • 客户端密钥:在 Microsoft Entra ID 中进行 OAuth 2.0 应用注册流程期间生成的密钥。
        • 租户 ID:Microsoft Entra 管理中心内组织的唯一标识符。

        如需了解详情,请参阅获取客户端凭据

      2. 如果您选择了 Federated Search,请点击登录,然后完成 Microsoft 登录。

    4. 点击继续

    5. 如果您选择了联合搜索,请执行以下操作:

      1. 目标平台部分中,输入 Microsoft OneDrive 网站的基本网址。

      2. 高级选项部分中,输入您在创建 Entra 应用时获得的租户 ID,即 Azure 租户

    6. 如果您选择了数据提取,请在高级选项部分中执行以下操作:

      1. 可选:如要允许系统使用一组静态 IP 地址,请选中启用静态 IP 地址复选框。
      2. 可选:在每秒查询次数上限字段中,输入每秒查询次数上限,以对连接器发送到 Microsoft OneDrive 实例的查询应用速率限制。
      3. 可选:如需尝试解密使用 Microsoft Purview 信息保护功能加密的所有文件,请选中解密使用 Microsoft Purview 信息保护功能加密的文件复选框。
    7. 要搜索的实体(如果您选择了联合搜索)或要同步的实体(如果您选择了数据提取)部分:

      1. 选择所有必需的实体。
      2. 如果您选择了联合搜索,请继续执行下一步。
      3. 如果您选择了数据提取,请继续执行以下步骤:
        1. 可选:如需同步特定项目,请执行以下操作:
          1. 点击过滤
          2. 如需将实体从索引中排除,请选中从索引中排除复选框;如需确保实体被纳入索引中,请选中纳入索引中复选框。
          3. 输入按键。每次输入键后按 Enter 键。
          4. 点击保存
        2. 如需配置同步时间表,请执行以下操作:
          1. 同步频率列表中,选择同步频率。
            • 如需分开安排实体数据和身份数据的完全同步,请展开完全同步部分中的菜单,然后选择自定义选项
          2. 增量同步频率列表中,选择增量同步频率。 如需了解详情,请参阅同步计划
  7. 点击继续

  8. 操作部分:

    1. 如果您选择了联合搜索
      1. 选择要启用的 Microsoft OneDrive 操作中,选择相应类别的操作以针对连接器启用这些操作。
    2. 如果您选择了数据提取

      1. 身份验证设置部分中,根据您选择的连接模式配置身份验证。 提供以下身份验证详细信息:

        • 客户端 ID:在贵组织的 Microsoft Entra ID 中注册的应用的唯一标识符。
        • 客户端密钥:在 Microsoft Entra ID 中进行 OAuth 2.0 应用注册流程期间生成的密钥。
        • 租户 ID:Microsoft Entra 管理中心内组织的唯一标识符。

        如需了解详情,请参阅获取客户端凭据

      2. 点击登录,然后登录 Microsoft OneDrive 以验证您的账号。

      3. 点击继续

      4. 高级设置部分中,输入您在创建 Entra 应用时获得的 Azure 租户(租户 ID)。

      5. 目标平台部分中,输入 Microsoft OneDrive 网站的基本网址。

      6. 选择要启用的 Microsoft OneDrive 操作中,选择相应类别的操作以针对连接器启用这些操作。

  9. 点击继续

  10. 配置部分中:

    1. 多区域列表中,选择数据连接器的位置。
    2. 数据连接器名称字段中,为连接器输入名称。
    3. 如果您选择 USEU 作为位置,请配置加密设置
      • 可选:如果您尚未配置单区域密钥,请点击前往设置页面进行配置。如需了解详情,请参阅为第三方连接器注册单区域密钥
      • 选择 Google-managed encryption keyCloud KMS key
      • 如果您选择的是 Cloud KMS 密钥
        • 密钥管理类型列表中,选择相应的类型。
        • Cloud KMS 密钥列表中,选择相应密钥。
      如需了解详情,请参阅客户管理的加密密钥

  11. 点击继续

  12. 结算部分中,选择一般价格可配置的价格。如需了解详情,请参阅验证项目的结算状态许可

  13. 点击创建。Gemini Enterprise 会为您创建数据存储区,并在数据存储区页面上显示您的数据存储区。

数据存储区页面上,点击数据存储区名称以查看状态。当数据存储区状态从正在创建变为活跃后,Microsoft OneDrive 连接器即可供使用。

对于使用 Microsoft OneDrive 创建的提取连接器,数据存储区状态会在同步开始时从正在创建变为正在运行。提取完成后,状态会变为活跃,表明数据存储区已完全配置完毕。根据数据量,提取过程可能需要数小时才能完成。

创建数据存储区后,请创建应用将其连接到 Microsoft OneDrive 数据存储区,并授权 Gemini Enterprise 访问 Microsoft OneDrive,然后才能执行任何查询。

为数据提取启用实时同步

如需为数据存储区启用实时同步,请按以下步骤操作。

  1. 在 Google Cloud 控制台中,前往 Gemini Enterprise 页面。

    Gemini Enterprise

  2. 在导航菜单中,点击数据存储区

  3. 点击要为其启用实时同步的 Microsoft OneDrive 数据存储区的名称。

  4. 在数据存储区的数据页面上,等待连接器状态变为活跃

  5. 实时同步字段中,点击查看/修改

  6. 如需启用实时同步,请点击启用实时同步切换开关。

  7. 客户端密钥字段中,输入一个值。此值用于验证 Microsoft OneDrive 网络钩子事件。我们建议使用 20 个字符的字符串。

  8. 点击保存

    等待实时同步字段变为正在运行

数据处理和查询执行

本部分介绍了 Gemini Enterprise 如何管理您的查询,以及使用联合数据存储区所涉及的隐私权问题。

查询执行

在您授权 Microsoft OneDrive 并向 Gemini Enterprise 发送搜索查询后:

  • Gemini Enterprise 会将您的搜索查询直接发送给 Microsoft API。
  • Gemini Enterprise 会将获得的结果与其他关联数据源的结果融合,然后显示全面的搜索结果。

数据处理

使用第三方联合搜索时,请遵循以下数据处理规则:

  • 您的查询字符串会发送到第三方搜索后端 (Microsoft API)。
  • 这些第三方可能会将查询与您的身份相关联。
  • 如果启用了多个联合搜索数据源,查询可能会发送到所有这些数据源。
  • 数据到达第三方系统后,将受该系统的服务条款和隐私权政策的约束。

后续步骤