Exporter des glossaires d'entreprise vers une feuille de calcul Google Sheet

Ce document explique comment utiliser l'utilitaire d'exportation de glossaire d'entreprise pour extraire des glossaires, des catégories et des termes de Knowledge Catalog (anciennement Dataplex Universal Catalog) dans une Google Sheet pour la gestion et la création de rapports en bloc.

L'utilitaire glossary_export récupère les métadonnées de votre glossaire d'entreprise Knowledge Catalog et remplit une Google Sheet avec un schéma structuré, y compris des descriptions, des responsables des données et des libellés.

Avant de commencer

Avant d'exporter des glossaires, remplissez les conditions préalables suivantes.

Configurer le compte de service

Pour exécuter l'utilitaire d'exportation, vous devez configurer un compte de service disposant des autorisations nécessaires pour accéder à l'API Google Sheets et emprunter l'identité de vos identifiants utilisateur :

  1. Identifiez ou créez un compte de service.

    Sélectionnez un compte de service existant ou créez-en un dans le projet dans lequel vous exécutez l'utilitaire d'importation. Pour en savoir plus, consultez la section Créer des comptes de service. Notez l'adresse e-mail du compte de service (par exemple, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Configurez l'emprunt d'identité du compte de service.

    Pour exécuter le script de l'utilitaire d'exportation localement, votre compte utilisateur doit être autorisé à emprunter l'identité du compte de service. Attribuez à votre compte utilisateur le rôle Créateur de jetons du compte de service (roles/iam.serviceAccountTokenCreator) sur le compte de service.

    Pour en savoir plus, consultez la page Gérer l'accès aux comptes de service.

  3. Accordez au compte de service Editor l'accès à la Google Sheet.

    Ouvrez la Google Sheet que vous souhaitez utiliser pour le processus d'importation, cliquez sur Partager, puis ajoutez l'adresse e-mail du compte de service en tant qu'Editor. Cette autorisation permet au compte de service de lire ou d'écrire des données dans votre feuille.

Rôles requis

Pour vous assurer que le compte de service dispose des autorisations nécessaires pour exporter des glossaires vers une Google Sheet, demandez à votre administrateur d'accorder les rôles IAM suivants au compte de service :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Votre administrateur peut également attribuer au compte de service les autorisations requises à l'aide de rôles personnalisés ou d'autres rôles prédéfinis.

Activer les API

Pour exporter des glossaires, activez les API suivantes dans votre projet :

Rôles requis pour activer les API

Pour activer les API, vous avez besoin du rôle IAM Administrateur d'utilisation du service (roles/serviceusage.serviceUsageAdmin), qui contient l'autorisation serviceusage.services.enable. Découvrez comment attribuer des rôles.

Activer les API

Configurer le dépôt Git

Clonez le dépôt dataplex-labs :

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

Installer des dépendances

Installez les dépendances Python requises :

pip3 install -r requirements.txt

Si vous rencontrez des problèmes lors de l'installation du package, configurez un nouvel environnement de développement Python.

S'authentifier et configurer l'emprunt d'identité du compte de service

Initialisez la Google Cloud CLI et authentifiez-vous à l'aide des identifiants par défaut de l'application (ADC) avec l'emprunt d'identité du compte de service :

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Remplacez SERVICE_ACCOUNT_EMAIL par l'ID de l'adresse e-mail du compte de service. Exemple :

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Configurer la Google Sheet cible pour l'exportation

Créez une Google Sheet vide ou utilisez-en une existante. Le script d'exportation écrit dans la première feuille. Assurez-vous d'avoir accordé au compte de service l'accès Editor à la Google Sheet.

Exporter le glossaire vers la Google Sheet

Exécutez le script glossary-export.py. L'utilitaire vous invite à indiquer la Google Sheet cible et le nom spécifique du glossaire que vous souhaitez exporter lors de l'exécution :

python3 glossary-export.py

Vous pouvez consulter les journaux d'exécution dans le répertoire logs/ de votre chemin d'exécution local. Ces journaux vous aident à auditer le processus de transfert et à identifier les entrées ignorées ou les avertissements de mise en forme.

Vérifier les données du glossaire exporté

Le script d'exportation remplit la Google Sheet avec les colonnes suivantes. Vérifiez les données exportées.

Champ Description
id Identifiant unique du terme ou de la catégorie dans le glossaire.
parent ID de la catégorie parente.
display_name Nom à afficher du terme ou de la catégorie.
description Brève description du terme ou de la catégorie.
overview Description au format texte enrichi du terme ou de la catégorie (compatible avec les balises HTML).
type Type de ligne : TERM ou CATEGORY.
contact1_email Adresse e-mail du responsable des données principal pour le terme ou la catégorie.
contact1_name Nom du responsable des données principal pour le terme ou la catégorie.
contact2_email Adresse e-mail du responsable des données secondaire pour le terme ou la catégorie.
contact2_name Nom du responsable des données secondaire pour le terme ou la catégorie.
label1_key Clé du premier libellé attribué.
label1_value Valeur du premier libellé attribué.
label2_key Clé du deuxième libellé attribué.
label2_value Valeur du deuxième libellé attribué.

Étape suivante