Usar Dataplex Universal Catalog con MCP, Gemini y otros agentes

En esta página se explica cómo conectar tu instancia de Dataplex Universal Catalog a herramientas para desarrolladores, como la CLI de Gemini. Conectar Dataplex Universal Catalog a estas herramientas permite descubrir datos y gestionar recursos mediante IA directamente en tu IDE.

Para disfrutar de una experiencia de línea de comandos integrada, te recomendamos que uses la extensión específica Dataplex Universal Catalog para la CLI de Gemini. La extensión incluye el servidor subyacente Model Context Protocol (MCP), que actúa como intermediario entre la CLI de Gemini y Dataplex Universal Catalog, lo que elimina la necesidad de configurar un servidor independiente.

También puedes conectar otros IDEs y herramientas para desarrolladores que admitan MCP mediante la caja de herramientas MCP para bases de datos de uso general. Después, puedes usar agentes de IA en tu IDE para descubrir recursos de datos en Dataplex Universal Catalog. Para obtener más información sobre MCP, consulta el artículo Introducción a Model Context Protocol.

En esta guía se muestra el proceso de conexión de las siguientes herramientas:

Acerca de Gemini CLI y las extensiones

Gemini CLI es un agente de IA conversacional de código abierto de Google que acelera los flujos de trabajo de desarrollo y ayuda con la codificación, la depuración, la exploración de datos y la creación de contenido. Ofrece una experiencia basada en agentes para interactuar con servicios de Data Cloud, como Dataplex Universal Catalog, y otras bases de datos de código abierto populares.

Para obtener más información sobre la CLI de Gemini, consulta la documentación de la CLI de Gemini.

Cómo funcionan las extensiones

Las extensiones amplían las funciones de la CLI de Gemini, lo que le permite conectarse a Google Cloud servicios y otras herramientas específicos y controlarlos. Proporcionan contexto y comprensión de la API a Gemini, lo que permite una interacción conversacional. Puedes cargar extensiones de Gemini CLI desde URLs de GitHub, directorios locales o registros. Estas extensiones ofrecen nuevas herramientas, comandos de barra inclinada y peticiones. Son diferentes de las extensiones de IDE, como Gemini Code Assist, que se integran mediante MCP Toolbox.

Acerca de la extensión Dataplex Universal Catalog

La caja de herramientas de MCP para bases de datos está en fase beta (anterior a la versión 1.0) y puede sufrir cambios importantes hasta el lanzamiento de la primera versión estable (1.0).

La extensión Dataplex Universal Catalog para la CLI de Gemini integra la IA en tus tareas de gobernanza y descubrimiento de datos. Puedes interactuar con Dataplex Universal Catalog mediante peticiones de lenguaje natural en tu terminal. A continuación, te mostramos algunos ejemplos:

Categoría Herramienta Ejemplo de petición en lenguaje natural
Descubrimiento y control de datos dataplex_search_entries
  • Encuentra todos los conjuntos de datos relacionados con las ventas en Europa.
  • Muéstrame las tablas que contengan información personal de clientes.
  • Lista todos los conjuntos de datos de BigQuery del lake "marketing" en Dataplex Universal Catalog.
dataplex_lookup_entry
  • ¿Cuál es el esquema de la tabla "orders"?
  • Describe las reglas de calidad de los datos aplicadas a la base de datos de clientes.
  • ¿Quién figura como propietario de la empresa en la tabla `customer_details`?
dataplex_search_aspect_types
  • Muéstrame los tipos de aspectos relacionados con las reglas de calidad de los datos.
  • Lista de todos los tipos de aspectos que se usan para el gobierno de datos.
  • ¿Hay algún tipo de aspecto para marcar datos personales?

Para obtener más información sobre la extensión Dataplex Universal Catalog, consulta la página Extensión de la CLI de Gemini: Dataplex Universal Catalog.

Roles y permisos necesarios

Para obtener los permisos que necesitas para conectarte a Dataplex Universal Catalog mediante MCP Toolbox o la extensión de la CLI de Gemini, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en tu proyecto:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para conectarse a Dataplex Universal Catalog mediante MCP Toolbox o la extensión de la CLI de Gemini. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para conectarse a Dataplex Universal Catalog mediante MCP Toolbox o la extensión de la CLI de Gemini, se necesitan los siguientes permisos:

  • Para habilitar las APIs, sigue estos pasos: serviceusage.services.enable
  • Para usar las herramientas de Dataplex Universal Catalog, haz lo siguiente:
    • dataplex.projects.search
    • dataplex.entries.get
    • dataplex.aspectTypes.get
    • dataplex.aspectTypes.list

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Habilitar la API Dataplex Universal Catalog

  1. Consulta los permisos necesarios para completar las tareas de esta guía.
  2. In the Google Cloud console, go to the project selector page.

    Go to project selector

  3. Select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. If you're using a local shell, then create local authentication credentials for your user account:

    gcloud auth application-default login

    You don't need to do this if you're using Cloud Shell.

    If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.

Instalar MCP Toolbox

No es necesario que instales MCP Toolbox si solo tienes previsto usar Gemini Code Assist o la extensión de la CLI de Gemini, ya que incluyen las funciones de servidor necesarias. En otros IDEs y herramientas, sigue los pasos de esta sección para instalar MCP Toolbox.

  1. Descarga la última versión de MCP Toolbox como archivo binario. Selecciona el binario que corresponda a tu sistema operativo y a la arquitectura de tu CPU. Debes usar MCP Toolbox v0.15.0 o una versión posterior.

    Linux/amd64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/linux/amd64/toolbox
    

    Sustituye VERSION por la versión de MCP Toolbox; por ejemplo, v0.15.0.

    macOS (Darwin)/arm64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/darwin/arm64/toolbox
    

    Sustituye VERSION por la versión de MCP Toolbox; por ejemplo, v0.15.0.

    macOS (Darwin)/amd64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/darwin/amd64/toolbox
    

    Sustituye VERSION por la versión de MCP Toolbox; por ejemplo, v0.15.0.

    Windows/amd64

    curl -O https://storage.googleapis.com/genai-toolbox/VERSION/windows/amd64/toolbox
    

    Sustituye VERSION por la versión de MCP Toolbox; por ejemplo, v0.15.0.

  2. Haz que el archivo binario sea ejecutable:

    chmod +x toolbox
    
  3. Verifica la instalación:

    ./toolbox --version
    

    Si la instalación se realiza correctamente, se devuelve el número de versión (por ejemplo, 0.15.0).

Configurar clientes y conexiones

En esta sección se explica cómo conectar Dataplex Universal Catalog a sus herramientas.

Si usas Gemini Code Assist o la CLI de Gemini independiente, no tienes que instalar ni configurar MCP Toolbox, ya que estas herramientas incluyen las funciones de servidor necesarias. Para ver las instrucciones de configuración, consulta las pestañas Gemini Code Assist o Extensión de la CLI de Gemini.

Para usar otras herramientas y otros IDEs compatibles con MCP, primero debes instalar MCP Toolbox. La caja de herramientas actúa como un servidor de Model Context Protocol (MCP) de código abierto que se encuentra entre tu IDE y Dataplex Universal Catalog, lo que proporciona un plano de control seguro y eficiente para tus herramientas de IA. Después de la instalación, selecciona la pestaña de tu herramienta específica para ver las instrucciones de configuración.

Extensión de Gemini CLI

Este método usa la extensión dataplex específica para la herramienta independiente de la CLI de Gemini y no usa MCP Toolbox.

  1. Instala la CLI de Gemini.
  2. Instala la extensión Dataplex Universal Catalog para la CLI de Gemini desde el repositorio de GitHub:
    gemini extensions install https://github.com/gemini-cli-extensions/dataplex
  3. Define la variable de entorno para conectarte a tu proyecto de Dataplex Universal Catalog:
    export DATAPLEX_PROJECT="PROJECT_ID"

    Sustituye PROJECT_ID por el ID de tu proyecto. Google Cloud

  4. Inicia la CLI de Gemini en modo interactivo:
    gemini
    La CLI carga automáticamente la extensión Dataplex Universal Catalog y sus herramientas, que puedes usar para interactuar con tus recursos de datos.

Gemini Code Assist

Gemini Code Assist incluye las funciones necesarias del servidor MCP, por lo que no tienes que instalar MCP Toolbox por separado.

  1. En VS Code, instala la extensión Gemini Code Assist.
  2. Habilita el modo Agente en el chat de Gemini Code Assist.
  3. En tu directorio de trabajo, crea una carpeta llamada .gemini. Dentro de esa carpeta, crea un archivo settings.json.
  4. Añade la siguiente configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Código de Claude

  1. Instala Claude Code.
  2. Crea el archivo .mcp.json en la raíz de tu proyecto, si no existe.
  3. Añade la configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Claude para ordenadores

  1. Abre Claude Desktop y ve a Configuración.
  2. Para abrir el archivo de configuración, en la pestaña Desarrollador, haz clic en Editar configuración.
  3. Añade la configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
  4. Reinicia Claude para ordenadores.
    En la nueva pantalla de chat se muestra un icono de MCP con el nuevo servidor MCP.

Cline

  1. En VS Code, abre la extensión Cline y, a continuación, haz clic en el icono Servidores MCP.
  2. Para abrir el archivo de configuración, toca Configurar servidores MCP.
  3. Añade la siguiente configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
    Si el servidor se conecta correctamente, aparecerá el estado activo en verde.

Cursor

  1. Crea el directorio .cursor en la raíz de tu proyecto si no existe.
  2. Crea el archivo .cursor/mcp.json si no existe y ábrelo.
  3. Añade la siguiente configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
  4. Abre Cursor y ve a Configuración>Configuración del cursor > MCP. Cuando el servidor se conecta, aparece el estado activo en verde.

VS Code (Copilot)

  1. Abre VS Code y crea el directorio .vscode en la raíz de tu proyecto si no existe.
  2. Crea el archivo .vscode/mcp.json si no existe y ábrelo.
  3. Añade la siguiente configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "servers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Windsurf

  1. Abre Windsurf y ve al asistente de cascada.
  2. Para abrir el archivo de configuración, haz clic en el icono de MCP y, a continuación, en Configurar.
  3. Añade la siguiente configuración, sustituye las variables de entorno por tus valores y guarda los cambios:
      {
        "mcpServers": {
          "dataplex": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Usar las herramientas

Tu herramienta de IA ya está conectada a Dataplex Universal Catalog. Prueba a pedirle a tu asistente de IA que busque algunos recursos de datos, como conjuntos de datos de BigQuery, instancias de Cloud SQL y otros.

El LLM tiene acceso a las siguientes herramientas:

Opcional: Añade instrucciones del sistema

Las instrucciones del sistema son una forma de proporcionar directrices específicas al LLM, lo que le ayuda a entender el contexto y a responder con mayor precisión. Configura las instrucciones del sistema según la petición del sistema recomendada.

Por ejemplo, puedes añadir instrucciones para guiar al LLM sobre cómo usar las herramientas de Dataplex Universal Catalog:

  • Cuando se te pida que busques conjuntos de datos o tablas, usa la herramienta dataplex_search_entries.
  • Si se te pide el esquema de la tabla o detalles de los metadatos, como las reglas de calidad de los datos o la propiedad, usa la herramienta dataplex_lookup_entry.
  • Cuando te pregunten sobre reglas o clasificaciones de gobernanza, empieza usando dataplex_search_aspect_types para encontrar tipos de aspectos relevantes.

Para obtener más información sobre cómo configurar las instrucciones, consulta Usar instrucciones para obtener ediciones de IA que sigan tu estilo de programación.

Siguientes pasos