Utiliser le catalogue de connaissances avec MCP, Gemini et d'autres agents

Cette page explique comment connecter votre instance Knowledge Catalog (anciennement Dataplex Universal Catalog) à des outils pour les développeurs tels que la CLI Gemini. En connectant Knowledge Catalog à ces outils, vous pouvez découvrir des données et gérer des composants grâce à l'IA directement dans votre outil.

Pour une expérience de ligne de commande intégrée, nous vous recommandons d'utiliser l'extension Knowledge Catalog dédiée pour Gemini CLI. L'extension regroupe un serveur MCP (Model Context Protocol) sous-jacent, qui sert d'intermédiaire entre Gemini CLI et Knowledge Catalog, ce qui élimine la nécessité de configurer un serveur distinct.

Vous pouvez également connecter d'autres IDE et outils pour les développeurs compatibles avec MCP à l'aide d'une MCP Toolbox for Databases locale. Vous pouvez ensuite utiliser des agents d'IA dans votre IDE existant pour découvrir des éléments de données dans Knowledge Catalog. Pour en savoir plus sur MCP, consultez Présentation du protocole MCP (Model Context Protocol).

Ce guide explique comment connecter les outils suivants :

À propos de la CLI Gemini et des extensions

Gemini CLI est un agent d'IA conversationnelle Open Source de Google qui accélère les workflows de développement et aide à coder, à déboguer, à explorer les données et à créer du contenu. Il offre une expérience basée sur des agents pour interagir avec les services Data Cloud, tels que Knowledge Catalog, et d'autres bases de données Open Source populaires.

Pour en savoir plus sur la CLI Gemini, consultez la documentation sur la CLI Gemini.

Fonctionnement des extensions

Les extensions étendent les capacités de Gemini CLI, lui permettant de se connecter à des services Google Cloud spécifiques et à d'autres outils, et de les contrôler. Ils fournissent à Gemini le contexte et la compréhension de l'API, ce qui permet une interaction conversationnelle. Vous pouvez charger les extensions Gemini CLI à partir d'URL GitHub, de répertoires locaux ou de registres. Ces extensions proposent de nouveaux outils, commandes à barre oblique et requêtes. Elles sont distinctes des extensions IDE, telles que Gemini Code Assist, qui s'intègrent à l'aide de MCP Toolbox.

À propos de l'extension Knowledge Catalog

L'extension Knowledge Catalog pour Gemini CLI intègre l'IA à vos tâches de gouvernance et de découverte des données. Vous pouvez interagir avec Knowledge Catalog à l'aide de requêtes en langage naturel dans votre terminal. Voici quelques exemples :

Catégorie Outil Exemple de requête en langage naturel
Découverte et gouvernance des données search_entries
  • Recherchez tous les ensembles de données liés aux ventes en Europe.
  • Affiche-moi les tables qui contiennent des informations client permettant d'identifier personnellement les utilisateurs.
  • Listez tous les ensembles de données BigQuery du lac de données marketing dans Knowledge Catalog.
lookup_entry
  • Quel est le schéma de la table orders ?
  • Décrivez les règles de qualité des données appliquées à la base de données customer.
  • Qui est indiqué comme propriétaire de l'établissement pour le tableau customer_details ?
search_aspect_types
  • Affiche-moi les types d'aspects liés aux règles de qualité des données.
  • Affichez la liste de tous les types d'aspects utilisés pour la gouvernance des données.
  • Existe-t-il des types d'aspects pour marquer les données à caractère personnel ?
Ancrer le LLM avec le contexte lookup_context (preview)
  • Décris l'élément de données orders.
  • Écrivez une requête SQL qui compte le nombre d'utilisateurs par pays.
  • Écrivez un pipeline de données pour nettoyer la table products.

Pour en savoir plus sur l'extension Knowledge Catalog, consultez Extension Gemini CLI – Knowledge Catalog.

Rôles requis

Pour obtenir les autorisations nécessaires pour vous connecter à Knowledge Catalog à l'aide de la boîte à outils MCP ou de l'extension Gemini CLI, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour se connecter à Knowledge Catalog à l'aide de la boîte à outils MCP ou de l'extension Gemini CLI. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Vous devez disposer des autorisations suivantes pour vous connecter au Knowledge Catalog à l'aide de MCP Toolbox ou de l'extension Gemini CLI :

  • Pour activer les API : serviceusage.services.enable
  • Pour utiliser les outils Knowledge Catalog :
    • dataplex.projects.search
    • dataplex.entries.get
    • dataplex.aspectTypes.get
    • dataplex.aspectTypes.list

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Activer l'API Dataplex

  1. Dans la console Google Cloud , accédez à la page de sélection du projet.

    Accéder au sélecteur de projet

  2. Sélectionnez ou créez un projet Google Cloud .

    Rôles requis pour sélectionner ou créer un projet

    • Sélectionnez un projet : la sélection d'un projet ne nécessite pas de rôle IAM spécifique. Vous pouvez sélectionner n'importe quel projet pour lequel un rôle vous a été attribué.
    • Créer un projet : pour créer un projet, vous devez disposer du rôle Créateur de projet (roles/resourcemanager.projectCreator), qui contient l'autorisation resourcemanager.projects.create. Découvrez comment attribuer des rôles.
  3. Vérifiez que la facturation est activée pour votre projet Google Cloud .

  4. Activez l'API Dataplex.

    Rôles requis pour activer les API

    Pour activer les API, vous avez besoin du rôle IAM Administrateur Service Usage (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

    Activer l'API

  5. Si vous utilisez un shell local, créez des identifiants d'authentification locaux pour votre compte utilisateur :

    gcloud auth application-default login

    Vous n'avez pas besoin de le faire si vous utilisez Cloud Shell.

    Si une erreur d'authentification est renvoyée et que vous utilisez un fournisseur d'identité (IdP) externe, vérifiez que vous vous êtes connecté à la gcloud CLI avec votre identité fédérée.

Installer MCP Toolbox

Vous n'avez pas besoin d'installer MCP Toolbox si vous prévoyez uniquement d'utiliser Gemini Code Assist ou l'extension Gemini CLI, car elles incluent les fonctionnalités de serveur requises. Pour les autres IDE et outils, suivez les étapes de cette section pour installer MCP Toolbox.

  1. Téléchargez la dernière version de MCP Toolbox en tant que binaire. Sélectionnez le fichier binaire qui correspond à votre système d'exploitation et à votre architecture de processeur. Vous devez utiliser MCP Toolbox v0.31.0 ou version ultérieure.

    Linux/amd64

    curl -O https://storage.googleapis.com/mcp-toolbox-for-databases/VERSION/linux/amd64/toolbox
    

    Remplacez VERSION par la version de MCP Toolbox, par exemple v0.31.0.

    macOS (Darwin)/arm64

    curl -O https://storage.googleapis.com/mcp-toolbox-for-databases/VERSION/darwin/arm64/toolbox
    

    Remplacez VERSION par la version de MCP Toolbox, par exemple v0.31.0.

    macOS (Darwin)/amd64

    curl -O https://storage.googleapis.com/mcp-toolbox-for-databases/VERSION/darwin/amd64/toolbox
    

    Remplacez VERSION par la version de MCP Toolbox, par exemple v0.31.0.

    Windows/amd64

    curl -O https://storage.googleapis.com/mcp-toolbox-for-databases/VERSION/windows/amd64/toolbox
    

    Remplacez VERSION par la version de MCP Toolbox, par exemple v0.31.0.

  2. Rendez le binaire exécutable :

    chmod +x toolbox
    
  3. Vérifiez l'installation :

    ./toolbox --version
    

    Si l'installation aboutit, le numéro de version s'affiche (par exemple, 0.15.0).

Configurer les clients et les connexions

Cette section explique comment connecter Knowledge Catalog à vos outils.

Si vous utilisez Gemini Code Assist ou Gemini CLI autonome, vous n'avez pas besoin d'installer ni de configurer MCP Toolbox, car ces outils incluent les fonctionnalités de serveur requises. Pour obtenir des instructions de configuration, consultez les onglets "Extension Gemini Code Assist" ou "Gemini CLI".

Pour les autres outils et IDE compatibles avec MCP, vous devez d'abord installer MCP Toolbox. Cette boîte à outils fait office de serveur Model Context Protocol (MCP) Open Source qui se situe entre votre IDE et le Knowledge Catalog. Elle fournit un plan de contrôle sécurisé et efficace pour vos outils d'IA. Après l'installation, sélectionnez l'onglet correspondant à votre outil pour afficher les instructions de configuration.

Extension Gemini CLI

Cette méthode utilise l'extension knowledge-catalog dédiée à l'outil Gemini CLI autonome et n'utilise pas MCP Toolbox.

  1. Installez la Gemini CLI.
  2. Installez l'extension Knowledge Catalog pour Gemini CLI à partir du dépôt GitHub :
    gemini extensions install https://github.com/gemini-cli-extensions/knowledge-catalog
  3. Définissez la variable d'environnement pour vous connecter à votre projet Knowledge Catalog :
    export DATAPLEX_PROJECT="PROJECT_ID"

    Remplacez PROJECT_ID par l'ID du projet Google Cloud .

  4. Démarrez Gemini CLI en mode interactif :
    gemini
    La CLI charge automatiquement l'extension Knowledge Catalog et ses outils, que vous pouvez utiliser pour interagir avec vos composants de données.

Gemini Code Assist

Gemini Code Assist regroupe les fonctionnalités de serveur MCP requises. Vous n'avez donc pas besoin d'installer MCP Toolbox séparément.

  1. Dans VS Code, installez l'extension Gemini Code Assist.
  2. Activez le mode Agent dans le chat Gemini Code Assist.
  3. Dans votre répertoire de travail, créez un dossier nommé .gemini. Dans ce dossier, créez un fichier settings.json.
  4. Ajoutez la configuration suivante, remplacez les variables d'environnement par vos valeurs et enregistrez :
      {
        "mcpServers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Claude Code

  1. Installez Claude Code.
  2. Créez le fichier .mcp.json à la racine de votre projet, s'il n'existe pas.
  3. Ajoutez la configuration, remplacez les variables d'environnement par vos valeurs, puis enregistrez :
      {
        "mcpServers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Claude sur ordinateur

  1. Ouvrez Claude Desktop et accédez à Settings (Paramètres).
  2. Pour ouvrir le fichier de configuration, dans l'onglet Développeur, cliquez sur Modifier la configuration.
  3. Ajoutez la configuration, remplacez les variables d'environnement par vos valeurs et enregistrez :
      {
        "mcpServers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
  4. Redémarrez Claude pour ordinateur.
    Le nouvel écran de chat affiche une icône MCP avec le nouveau serveur MCP.

Cline

  1. Dans VS Code, ouvrez l'extension Cline, puis cliquez sur l'icône Serveurs MCP.
  2. Pour ouvrir le fichier de configuration, appuyez sur Configurer les serveurs MCP.
  3. Ajoutez la configuration suivante, remplacez les variables d'environnement par vos valeurs et enregistrez :
      {
        "mcpServers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
    Un état actif vert s'affiche une fois le serveur connecté.

Cursor

  1. Créez le répertoire .cursor dans la racine de votre projet s'il n'existe pas.
  2. Créez le fichier .cursor/mcp.json s'il n'existe pas et ouvrez-le.
  3. Ajoutez la configuration suivante, remplacez les variables d'environnement par vos valeurs et enregistrez :
      {
        "mcpServers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      
  4. Ouvrez Curseur, puis accédez à Paramètres > Paramètres du curseur > MCP. Un état actif vert s'affiche lorsque le serveur se connecte.

VS Code (Copilot)

  1. Ouvrez VS Code et créez le répertoire .vscode à la racine de votre projet s'il n'existe pas.
  2. Créez le fichier .vscode/mcp.json s'il n'existe pas, puis ouvrez-le.
  3. Ajoutez la configuration suivante, remplacez les variables d'environnement par vos valeurs et enregistrez :
      {
        "servers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Windsurf

  1. Ouvrez Windsurf et accédez à l'assistant Cascade.
  2. Pour ouvrir le fichier de configuration, cliquez sur l'icône MCP, puis sur Configurer.
  3. Ajoutez la configuration suivante, remplacez les variables d'environnement par vos valeurs et enregistrez :
      {
        "mcpServers": {
          "knowledgeCatalog": {
            "command": "./PATH/TO/toolbox",
            "args": ["--prebuilt","dataplex","--stdio"],
            "env": {
              "DATAPLEX_PROJECT": "PROJECT_ID"
            }
          }
        }
      }
      

Utiliser les outils

Votre outil d'IA est désormais connecté à Knowledge Catalog. Essayez de demander à votre assistant IA de trouver des composants de données tels que des ensembles de données BigQuery, des instances Cloud SQL, etc.

Les outils suivants sont à la disposition du LLM :

  • search_entries : rechercher des éléments de données
  • lookup_entry : récupérez les métadonnées (par exemple, le schéma, l'utilisation, la présentation de l'activité et les contacts) des composants de données.
  • search_aspect_types : rechercher des types d'aspects
  • lookup_context (aperçu) : récupérez un ensemble riche de métadonnées préformatées concernant un ou plusieurs éléments de données.

Facultatif : Ajouter des instructions système

Les instructions système permettent de fournir des consignes spécifiques au LLM, ce qui l'aide à comprendre le contexte et à répondre plus précisément. Configurez les instructions système en fonction du prompt système recommandé.

Par exemple, vous pouvez ajouter des instructions pour guider le LLM sur l'utilisation des outils du Knowledge Catalog :

  • Lorsque vous êtes invité à trouver des ensembles de données ou des tables, utilisez l'outil search_entries.
  • Si vous êtes invité à fournir des informations sur le schéma ou les métadonnées d'une table, comme les règles de qualité des données ou la propriété, utilisez l'outil lookup_entry.
  • Lorsque vous êtes interrogé sur des règles de gouvernance ou des classifications, commencez par utiliser search_aspect_types pour trouver les types d'aspects pertinents.
  • Si répondre à des questions nécessite un large éventail de métadonnées, utilisez l'outil lookup_context pour les récupérer.

Pour savoir comment configurer les instructions, consultez Utiliser des instructions pour obtenir des modifications de l'IA qui respectent votre style de programmation.

Étapes suivantes