À propos de l'importation et de l'exportation de glossaires et de liens vers des entrées

Ce document explique comment importer et exporter des glossaires d'entreprise et des liens d'entrée dans Knowledge Catalog (anciennement Dataplex Universal Catalog).

Le glossaire d'entreprise Knowledge Catalog vous permet de définir un vocabulaire d'entreprise commun et d'associer ces termes à des composants de données physiques. À mesure que votre catalogue s'agrandit, il peut devenir difficile de gérer ces termes et leurs relations individuellement dans la Google Cloud console.

Pour gérer votre glossaire d'entreprise à grande échelle, vous pouvez importer et exporter des glossaires (catégories et termes) et des liens d'entrée (associations entre les termes et les composants de données) en bloc.

Terminologie

Avant d'utiliser les utilitaires d'importation et d'exportation, familiarisez-vous avec les composants clés suivants :

  • Ressources de glossaire : elles se composent de catégories et de termes qui établissent votre vocabulaire d'entreprise.
  • Liens d'entrée : relations ou associations entre les ressources. Knowledge Catalog accepte trois types de liens d'entrée :

    • definition: associe un terme de glossaire à un composant de données spécifique (par exemple, une colonne BigQuery)
    • related : établit une relation entre deux termes de glossaire associés
    • synonym: établit une relation entre deux termes de glossaire synonymes

Méthodes d'importation et d'exportation de glossaires et de liens d'entrée

Knowledge Catalog accepte deux méthodes principales pour la gestion des glossaires en bloc. Choisissez la méthode qui correspond le mieux à vos besoins d'automatisation et à votre interface préférée :

  • Importation de métadonnées basées sur JSON
  • Utilitaires d'importation et d'exportation basés sur Google Sheets

Importation de métadonnées basées sur JSON

Il s'agit du mécanisme intégré et entièrement géré de Knowledge Catalog. Vous utilisez l'API Dataplex pour importer des termes de glossaire et leurs associations définies dans des fichiers de métadonnées au format JSON.

Exemple de cas d'utilisation : mettez automatiquement à jour les métadonnées de votre Knowledge Catalog dans le cadre d'un pipeline de données planifié quotidiennement, par exemple en synchronisant les termes directement à partir d'une base de données d'entreprise externe.

Pour en savoir plus, consultez Importer des glossaires et des liens d'entrée à l'aide de fichiers JSON.

Utilitaires d'importation et d'exportation basés sur Google Sheets

Il s'agit d'une approche Open Source basée sur des scripts fournie dans le dépôt dataplex-labs. Elle utilise un script Python pour synchroniser les métadonnées du glossaire entre une feuille Google Sheet et Knowledge Catalog.

Exemple de cas d'utilisation : une équipe de gouvernance des données souhaite rédiger et examiner en collaboration des dizaines de nouveaux termes commerciaux avec des parties prenantes non techniques. L'équipe utilise cette méthode basée sur une feuille de calcul pour que tout le monde puisse modifier, commenter et approuver les termes dans Google Sheet avant qu'un administrateur n'exécute le script pour les importer en bloc dans Knowledge Catalog.

Pour en savoir plus, consultez les documents suivants :

Cas d'utilisation courant : modification aller-retour avec Google Sheets

Un workflow administratif courant consiste à effectuer une modification aller-retour. Cela implique d'exporter la configuration de votre catalogue existant, d'apporter des modifications en bloc et d'appliquer ces modifications à Knowledge Catalog.

Le workflow suivant montre comment exécuter ce processus :

  1. Exportez les métadonnées existantes de Knowledge Catalog vers Google Sheets.

    Utilisez les utilitaires d'exportation de glossaire et d'exportation de liens d'entrée pour extraire la structure de votre glossaire existant et les liens d'entrée dans une Google Sheet.

  2. Modifiez les métadonnées dans Google Sheets.

    Apportez les modifications nécessaires dans la Google Sheet. Étant donné que les liens symétriques (tels que les liens d'entrée synonym et related) sont simplifiés dans une seule direction lors de l'exportation pour éviter les lignes en double, vous n'avez besoin de les gérer qu'une seule fois.

    Vous pouvez ajouter des lignes à la feuille correspondante en suivant le schéma de colonne requis. Vous pouvez également modifier des détails tels que les descriptions ou les noms à afficher directement dans les lignes.

  3. Organisez et importez les modifications de Google Sheets vers Knowledge Catalog.

    Exécutez d'abord l'utilitaire d'importation de glossaire. Cela permet de s'assurer que tous les nouveaux termes ou catégories sont créés dans le glossaire d'entreprise avant que vous ne tentiez de les lier.

    Exécutez l'utilitaire d'importation de liens d'entrée. Cet utilitaire lit vos associations mises à jour, les organise dans votre bucket Cloud Storage et applique les liens definition, related et synonym à votre glossaire nouvellement mis à jour.

Étape suivante