En este documento, se explica cómo usar la utilidad de exportación del glosario empresarial para extraer glosarios, categorías y términos de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) en una hoja de cálculo de Google para la administración y la generación de informes masivos.
La utilidad glossary_export recupera metadatos de tu glosario empresarial de Knowledge Catalog y completa una hoja de cálculo de Google con un esquema estructurado, incluidas descripciones, administradores de datos y etiquetas.
Antes de comenzar
Antes de exportar glosarios, completa los siguientes requisitos previos.
Configura la cuenta de servicio
Para ejecutar la utilidad de exportación, debes configurar una cuenta de servicio con los permisos necesarios para acceder a la API de Google Sheets y suplantar tus credenciales de usuario:
Identifica o crea una cuenta de servicio.
Selecciona una cuenta de servicio existente o crea una nueva en el proyecto en el que ejecutas la utilidad de importación. Para obtener más información, consulta Crea cuentas de servicio. Toma nota del correo electrónico de la cuenta de servicio (por ejemplo,
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).Configura el robo de identidad de la cuenta de servicio.
Para ejecutar el script de la utilidad de exportación de forma local, tu cuenta de usuario debe tener permiso para suplantar la identidad de la cuenta de servicio. Otorga a tu cuenta de usuario el rol de creador de tokens de cuenta de servicio (
roles/iam.serviceAccountTokenCreator) en la cuenta de servicio.Para obtener más información, consulta Administra el acceso a las cuentas de servicio.
Otorga a la cuenta de servicio
Editoracceso a la Hoja de cálculo de Google.Abre la Hoja de cálculo de Google que quieras usar para el proceso de importación, haz clic en Compartir y agrega el correo electrónico de la cuenta de servicio como
Editor. Este permiso permite que la cuenta de servicio lea o escriba datos en tu hoja.
Roles obligatorios
Para garantizar que la cuenta de servicio tenga los permisos necesarios para exportar glosarios a una hoja de cálculo de Google, pídele a tu administrador que le otorgue los siguientes roles de IAM a la cuenta de servicio:
- Administrador de Dataplex (
roles/dataplex.admin) en el proyecto - Administrador de Catálogo de Dataplex (
roles/dataplex.catalogAdmin) en el proyecto - Editor del catálogo de Dataplex (
roles/dataplex.catalogEditor) en el proyecto
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Es posible que tu administrador también pueda otorgar a la cuenta de servicio los permisos necesarios a través de roles personalizados o de otros roles predefinidos.
Habilita las APIs
Para exportar glosarios, habilita las siguientes APIs en tu proyecto:
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.
Configura el repositorio de Git
Clona el repositorio dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
Instala dependencias
Instala las dependencias de Python necesarias:
pip3 install -r requirements.txt
Si tienes algún problema con la instalación del paquete, configura un nuevo entorno de desarrollo de Python.
Autentica y configura la suplantación de identidad de la cuenta de servicio
Inicializa Google Cloud CLI y autentícate con las credenciales predeterminadas de la aplicación (ADC) con la identidad temporal de la cuenta de servicio:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
Reemplaza SERVICE_ACCOUNT_EMAIL por el ID de correo electrónico de la cuenta de servicio. Por ejemplo:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
Configura la hoja de cálculo de Google de destino para la exportación
Crea una hoja de cálculo de Google vacía o usa una existente. La secuencia de comandos de exportación escribe en la primera hoja. Asegúrate de haber otorgado a la cuenta de servicio acceso Editor a la hoja de cálculo de Google.
Exporta el glosario a la hoja de cálculo de Google
Ejecuta la secuencia de comandos glossary-export.py. Durante la ejecución, la utilidad te solicitará la hoja de cálculo de Google de destino y el nombre específico del glosario que deseas exportar:
python3 glossary-export.py
Puedes revisar los registros de ejecución en el directorio logs/ de tu ruta de ejecución local. Estos registros te ayudan a auditar el proceso de transferencia y a identificar las entradas omitidas o las advertencias de formato.
Verifica los datos del glosario exportados
La secuencia de comandos de exportación propaga la Hoja de cálculo de Google con las siguientes columnas. Verifica los datos exportados.
| Campo | Descripción |
|---|---|
id |
Es un identificador único para el término o la categoría dentro del glosario. |
parent |
Es el ID de la categoría principal. |
display_name |
Es el nombre visible del término o la categoría. |
description |
Es una breve descripción del término o la categoría. |
overview |
Es una descripción en texto enriquecido del término o la categoría (admite etiquetas HTML). |
type |
Tipo de fila: TERM o CATEGORY. |
contact1_email |
Dirección de correo electrónico del administrador de datos principal del término o la categoría. |
contact1_name |
Nombre del administrador de datos principal del término o la categoría. |
contact2_email |
Dirección de correo electrónico del administrador de datos secundario para el término o la categoría. |
contact2_name |
Nombre del administrador de datos secundario del término o la categoría. |
label1_key |
Es la clave de la primera etiqueta asignada. |
label1_value |
Es el valor de la primera etiqueta asignada. |
label2_key |
Es la clave de la segunda etiqueta asignada. |
label2_value |
Valor de la segunda etiqueta asignada. |
¿Qué sigue?
- Obtén más información para administrar un glosario de términos empresariales.
- Obtén información para importar glosarios con archivos JSON.
- Obtén más información para importar glosarios desde una hoja de cálculo de Google.
- Obtén más información sobre la administración de metadatos.