Exporta vínculos de entrada a una hoja de cálculo de Google

En este documento, se explica cómo usar la utilidad de exportación de vínculos de entrada para extraer vínculos de entrada (relaciones entre términos del glosario y recursos de datos) de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) a una hoja de cálculo de Google.

Puedes exportar vínculos de entrada a una Hoja de cálculo de Google para auditar los vínculos existentes, hacer una copia de seguridad de tus metadatos o preparar una plantilla para realizar actualizaciones masivas.

Antes de comenzar

Antes de exportar vínculos de entrada a una hoja de cálculo de Google, completa los siguientes requisitos previos.

Configura la cuenta de servicio

Para ejecutar la utilidad de exportación, debes configurar una cuenta de servicio con los permisos necesarios para acceder a la API de Google Sheets y suplantar tus credenciales de usuario:

  1. Identifica o crea una cuenta de servicio.

    Selecciona una cuenta de servicio existente o crea una nueva en el proyecto en el que ejecutas la utilidad de importación. Para obtener más información, consulta Crea cuentas de servicio. Toma nota del correo electrónico de la cuenta de servicio (por ejemplo, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Configura el robo de identidad de la cuenta de servicio.

    Para ejecutar el script de la utilidad de exportación de forma local, tu cuenta de usuario debe tener permiso para suplantar la identidad de la cuenta de servicio. Otorga a tu cuenta de usuario el rol de creador de tokens de cuenta de servicio (roles/iam.serviceAccountTokenCreator) en la cuenta de servicio.

    Para obtener más información, consulta Administra el acceso a las cuentas de servicio.

  3. Otorga a la cuenta de servicio Editor acceso a la Hoja de cálculo de Google.

    Abre la Hoja de cálculo de Google que quieras usar para el proceso de importación, haz clic en Compartir y agrega el correo electrónico de la cuenta de servicio como Editor. Este permiso permite que la cuenta de servicio lea o escriba datos en tu hoja.

Roles obligatorios

Para garantizar que la cuenta de servicio tenga los permisos necesarios para exportar vínculos de entrada a una hoja de cálculo de Google, pídele a tu administrador que le otorgue los siguientes roles de IAM a la cuenta de servicio:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Es posible que tu administrador también pueda otorgar a la cuenta de servicio los permisos necesarios a través de roles personalizados o de otros roles predefinidos.

Habilita las APIs

Para exportar vínculos de entrada, habilita las siguientes APIs en tu proyecto:

Roles necesarios para habilitar las APIs

Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.

Habilitar las API

Configura el repositorio de Git

Clona el repositorio dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

Instala dependencias

Instala las dependencias de Python necesarias:

pip3 install -r requirements.txt
cd dataplex-glossary

Si tienes algún problema con la instalación del paquete, configura un nuevo entorno de desarrollo de Python.

Autentica y configura la suplantación de identidad de la cuenta de servicio

Inicializa Google Cloud CLI y autentícate con las credenciales predeterminadas de la aplicación (ADC) con la identidad temporal de la cuenta de servicio:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud init
gcloud auth login
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Reemplaza SERVICE_ACCOUNT_EMAIL por el ID de correo electrónico de la cuenta de servicio. Por ejemplo:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Configura la hoja de cálculo de Google de destino para la exportación

Crea una hoja de cálculo de Google vacía o usa una existente. La secuencia de comandos de exportación escribe en la primera hoja. Asegúrate de haber otorgado a la cuenta de servicio acceso Editor a la hoja de cálculo de Google.

Configura variables de entorno

Configura las siguientes variables de entorno:

# Set your glossary URL
export GLOSSARY_URL="GLOSSARY_URL"

# Set your Google Sheet URL
export SPREADSHEET_URL="GOOGLE_SHEET_URL"

# Set the project ID
export USER_PROJECT="USER_PROJECT"

Exporta los vínculos de entrada a la hoja de cálculo de Google

Para exportar vínculos de entradas en un glosario a la hoja de cálculo de Google, ejecuta la siguiente secuencia de comandos:

cd export
python3 entrylinks-export.py \
  --glossary-url="$GLOSSARY_URL" \
  --spreadsheet-url="$SPREADSHEET_URL" \
  --user-project="$USER_PROJECT"

Puedes revisar los registros de ejecución en el directorio logs/ de tu ruta de ejecución local. Estos registros te ayudan a auditar el proceso de transferencia y a identificar las entradas omitidas o las advertencias de formato.

Verifica los datos de los vínculos de entrada exportados

La secuencia de comandos de exportación propaga la Hoja de cálculo de Google con las siguientes columnas:

Encabezado de columna Descripción
entry_link_type Es el tipo de vínculo de entrada (definition, related o synonym).
source_entry Es la ruta de acceso completa al recurso de la entrada de origen.
target_entry Es la ruta de acceso completa al recurso de la entrada de destino.
source_path Es la ruta de acceso a la columna o el campo para los vínculos de definición.

¿Qué sigue?