将 Dataplex Universal Catalog 与 MCP、Gemini 和其他代理搭配使用

本页面介绍了如何将 Dataplex Universal Catalog 实例连接到 Gemini CLI 等开发者工具。将 Dataplex Universal Catalog 连接到这些工具后,您便可以直接在 IDE 中使用 AI 驱动的数据发现和资产管理功能。

为了获得集成式命令行体验,我们建议您使用 Gemini CLI 的专用 Dataplex Universal Catalog 扩展程序。该扩展程序捆绑了底层 Model Context Protocol (MCP) 服务器,该服务器充当 Gemini CLI 和 Dataplex Universal Catalog 之间的中介,无需单独设置服务器。

或者,您也可以使用通用的 MCP Toolbox for Databases 连接支持 MCP 的其他 IDE 和开发者工具。然后,您可以在现有 IDE 中使用 AI 代理来发现 Dataplex Universal Catalog 中的数据资产。 如需详细了解 MCP,请参阅 Model Context Protocol 简介

本指南演示了适用于以下工具的连接过程:

Gemini CLI 和扩展服务简介

Gemini CLI 是 Google 推出的开源对话式 AI 智能体,可加速开发工作流程,并协助进行编码、调试、数据探索和内容创作。它提供了一种由代理驱动的体验,可用于与 Data Cloud 服务(例如 Dataplex Universal Catalog)和其他热门的开源数据库进行交互。

如需详细了解 Gemini CLI,请参阅 Gemini CLI 文档

扩展程序的运作方式

扩展服务可扩展 Gemini CLI 的功能,使其能够连接和控制特定的 Google Cloud 服务和其他工具。它们为 Gemini 提供上下文和 API 理解能力,从而实现对话式互动。您可以从 GitHub 网址、本地目录或注册表中加载 Gemini CLI 扩展程序。这些扩展程序提供新的工具、斜杠命令和提示。这些工具与使用 MCP Toolbox 集成的 IDE 扩展程序(例如 Gemini Code Assist)是分开的。

Dataplex Universal Catalog 扩展程序简介

数据库专用 MCP Toolbox 处于 Beta 版(v1.0 之前)阶段,在第一个稳定版 (v1.0) 发布之前可能会出现重大变更。

Gemini CLI 的 Dataplex Universal Catalog 扩展程序可将 AI 集成到数据治理和发现任务中。您可以在终端中使用自然语言提示与 Dataplex Universal Catalog 进行互动。以下是一些示例:

类别 工具 自然语言提示示例
数据发现和治理 dataplex_search_entries
  • 查找与欧洲销售相关的所有数据集。
  • 显示包含客户个人身份信息的表。
  • 列出 Dataplex Universal Catalog 中“marketing”数据湖中的所有 BigQuery 数据集。
dataplex_lookup_entry
  • “orders”表的架构是什么?
  • 描述应用于客户数据库的数据质量规则。
  • 谁被列为 `customer_details` 表的业务所有者?
dataplex_search_aspect_types
  • 显示与数据质量规则相关的方面类型。
  • 列出用于数据治理的所有方面类型。
  • 是否有任何用于标记个人身份信息数据的方面类型?

如需详细了解 Dataplex Universal Catalog 扩展程序,请参阅 Gemini CLI 扩展程序 - Dataplex Universal Catalog

所需的角色和权限

如需获得使用 MCP Toolbox 或 Gemini CLI 扩展程序连接到 Dataplex Universal Catalog 所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:

  • 如需启用 API,请执行以下操作: Service Usage Admin (roles/serviceusage.serviceUsageAdmin)
  • 如需使用 Dataplex Universal Catalog 工具,请执行以下操作: Dataplex Catalog Viewer (roles/dataplex.catalogViewer)

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

这些预定义角色包含使用 MCP Toolbox 或 Gemini CLI 扩展程序连接到 Dataplex Universal Catalog 所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

如需使用 MCP Toolbox 或 Gemini CLI 扩展程序连接到 Dataplex Universal Catalog,您需要具备以下权限:

  • 如需启用 API,请执行以下操作: serviceusage.services.enable
  • 如需使用 Dataplex Universal Catalog 工具,请执行以下操作:
    • dataplex.projects.search
    • dataplex.entries.get
    • dataplex.aspectTypes.get
    • dataplex.aspectTypes.list

您也可以使用自定义角色或其他预定义角色来获取这些权限。

启用 Dataplex Universal Catalog API

  1. 查看完成本指南中的任务所需的权限
  2. In the Google Cloud console, go to the project selector page.

    Go to project selector

  3. Select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. If you're using a local shell, then create local authentication credentials for your user account:

    gcloud auth application-default login

    You don't need to do this if you're using Cloud Shell.

    If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.

安装 MCP Toolbox

如果您只打算使用 Gemini Code AssistGemini CLI 扩展程序,则无需安装 MCP Toolbox,因为它们捆绑了所需的服务器功能。对于其他 IDE 和工具,请按照本部分中的步骤安装 MCP Toolbox。

  1. 以二进制文件形式下载最新版本的 MCP Toolbox。选择与您的操作系统 (OS) 和 CPU 架构对应的二进制文件。您必须使用 MCP Toolbox v0.15.0 或更高版本。

    Linux/amd64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/linux/amd64/toolbox
    

    VERSION 替换为 MCP Toolbox 版本,例如 v0.15.0

    macOS (Darwin)/arm64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/darwin/arm64/toolbox
    

    VERSION 替换为 MCP Toolbox 版本,例如 v0.15.0

    macOS (Darwin)/amd64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/darwin/amd64/toolbox
    

    VERSION 替换为 MCP Toolbox 版本,例如 v0.15.0

    Windows/amd64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/windows/amd64/toolbox
    

    VERSION 替换为 MCP Toolbox 版本,例如 v0.15.0

  2. 将该二进制文件设为可执行文件:

    chmod +x toolbox
    
  3. 验证安装:

    ./toolbox --version
    

    安装成功后,系统会返回版本号,例如 0.15.0。

设置客户端和连接

本部分介绍了如何将 Dataplex Universal Catalog 连接到您的工具。

如果您使用的是 Gemini Code Assist 或独立版 Gemini CLI,则无需安装或配置 MCP Toolbox,因为这些工具捆绑了所需的服务器功能。如需了解设置说明,请参阅“Gemini Code Assist”或“Gemini CLI 扩展程序”标签页。

对于其他与 MCP 兼容的工具和 IDE,您必须先安装 MCP Toolbox。该工具箱充当开源 Model Context Protocol (MCP) 服务器,位于 IDE 和 Dataplex Universal Catalog 之间,为 AI 工具提供安全高效的控制平面。安装完成后,选择相应工具的标签页,即可查看配置说明。

Gemini CLI 扩展服务

此方法使用独立 Gemini CLI 工具的专用 dataplex 扩展程序,而不使用 MCP Toolbox。

  1. 安装 Gemini CLI
  2. 从 GitHub 代码库安装 Gemini CLI 的 Dataplex Universal Catalog 扩展程序:
    gemini extensions install https://github.com/gemini-cli-extensions/dataplex
  3. 设置环境变量以连接到您的 Dataplex Universal Catalog 项目:
    export DATAPLEX_PROJECT="PROJECT_ID"

    请将 PROJECT_ID 替换为您的 Google Cloud 项目 ID。

  4. 以交互模式启动 Gemini CLI:
    gemini
    CLI 会自动加载 Dataplex Universal Catalog 扩展程序及其工具,您可以使用这些工具与数据资产进行交互。

Gemini Code Assist

Gemini Code Assist 捆绑了所需的 MCP 服务器功能,因此您无需单独安装 MCP Toolbox。

  1. 在 VS Code 中,安装 Gemini Code Assist 扩展程序。
  2. 在 Gemini Code Assist 对话中启用智能体模式。
  3. 在工作目录中,创建一个名为 .gemini 的文件夹。 在该文件夹中,创建一个 settings.json 文件。
  4. 添加以下配置,将环境变量替换为您的值,然后保存:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Claude Code

  1. 安装 Claude Code
  2. 在项目根目录中创建 .mcp.json 文件(如果尚不存在)。
  3. 添加配置,将环境变量替换为您的值,然后保存:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Claude Desktop

  1. 打开 Claude Desktop,然后前往设置
  2. 如需打开配置文件,请在开发者标签页中点击修改配置
  3. 添加配置,将环境变量替换为您的值,然后保存:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
  4. 重启 Claude Desktop。
    新聊天界面会显示 MCP 图标以及新的 MCP 服务器。

Cline

  1. 在 VS Code 中,打开 Cline 扩展程序,然后点击 MCP 服务器图标。
  2. 如需打开配置文件,请点按配置 MCP 服务器
  3. 添加以下配置,将环境变量替换为您的值,然后保存:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
    服务器成功连接后,系统会显示绿色的活跃状态。

光标

  1. 在项目根目录中创建 .cursor 目录(如果尚不存在)。
  2. 创建 .cursor/mcp.json 文件(如果尚不存在)并打开该文件。
  3. 添加以下配置,将环境变量替换为您的值,然后保存:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
  4. 打开 Cursor,然后依次前往设置 > Cursor 设置 > MCP。服务器连接时,系统会显示绿色的活跃状态。

VS Code (Copilot)

  1. 打开 VS Code,并在项目根目录中创建 .vscode 目录(如果尚不存在)。
  2. 创建 .vscode/mcp.json 文件(如果尚不存在)并打开该文件。
  3. 添加以下配置,将环境变量替换为您的值,然后保存:
      {
        "servers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Windsurf

  1. 打开 Windsurf 并前往 Cascade 助理。
  2. 如需打开配置文件,请点击 MCP 图标,然后点击配置
  3. 添加以下配置,将环境变量替换为您的值,然后保存:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

使用这些工具

您的 AI 工具现在已连接到 Dataplex Universal Catalog。您可以尝试让 AI 助理查找一些数据资产,例如 BigQuery 数据集、Cloud SQL 实例等。

LLM 可使用以下工具:

可选:添加系统指令

系统指令可用于为 LLM 提供特定准则,帮助其了解上下文并更准确地回答问题。根据推荐的系统提示设置系统指令。

例如,您可以添加指令来指导 LLM 如何使用 Dataplex Universal Catalog 工具:

  • 当被要求查找数据集或表时,请使用 dataplex_search_entries 工具。
  • 如果需要了解表架构或元数据详情(例如数据质量规则或所有权),请使用 dataplex_lookup_entry 工具。
  • 当被问及治理规则或分类时,请先使用 dataplex_search_aspect_types 查找相关方面类型。

如需详细了解如何配置指令,请参阅使用指令获取符合您编码风格的 AI 编辑内容

后续步骤