Exportar glossários empresariais para uma planilha Google

Este documento explica como usar o utilitário de exportação do glossário empresarial para extrair glossários, categorias e termos do Knowledge Catalog (antigo Dataplex Universal Catalog) para uma planilha do Google para gerenciamento e relatórios em massa.

O utilitário glossary_export recupera metadados do glossário empresarial do Knowledge Catalog e preenche uma planilha do Google com um esquema estruturado, incluindo descrições, administradores de dados e rótulos.

Antes de começar

Antes de exportar glossários, conclua os pré-requisitos a seguir.

Configurar a conta de serviço

Para executar o utilitário de exportação, configure uma conta de serviço com as permissões necessárias para acessar a API Google Sheets e representar suas credenciais de usuário:

  1. Identifique ou crie uma conta de serviço.

    Selecione uma conta de serviço atual ou crie uma no projeto em que você executa o utilitário de importação. Para mais informações, consulte Criar contas de serviço. Anote o e-mail da conta de serviço (por exemplo, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Configure a identidade temporária de conta de serviço.

    Para executar o script do utilitário de exportação localmente, sua conta de usuário precisa ter permissão para representar a conta de serviço. Conceda à conta de usuário o papel Criador de token da conta de serviço (roles/iam.serviceAccountTokenCreator) na conta de serviço.

    Para mais informações, consulte Gerenciar o acesso a contas de serviço.

  3. Conceda à conta de serviço Editor acesso à planilha do Google.

    Abra a planilha Google que você quer usar para o processo de importação, clique em Compartilhar, e adicione o e-mail da conta de serviço como um Editor. Essa permissão permite que a conta de serviço leia ou grave dados na planilha.

Funções exigidas

Para garantir que a conta de serviço tenha as permissões necessárias para exportar glossários para uma planilha do Google, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

O administrador também pode conceder à conta de serviço as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Ativar APIs

Para exportar glossários, ative as seguintes APIs no seu projeto:

Funções necessárias para ativar APIs

Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.

Ativar as APIs

Configurar o repositório Git

Clone o repositório dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

Instalar dependências

Instale as dependências necessárias do Python:

pip3 install -r requirements.txt

Se você tiver problemas com a instalação do pacote, configure um novo ambiente de desenvolvimento Python.

Autenticar e configurar a identidade temporária de conta de serviço

Inicialize a Google Cloud CLI e faça a autenticação usando o Application Default Credentials (ADC) com a identidade temporária de conta de serviço:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Substitua SERVICE_ACCOUNT_EMAIL pelo ID do e-mail da conta de serviço. Exemplo:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Configurar a planilha Google de destino para exportação

Crie uma planilha Google vazia ou use uma atual. O script de exportação grava na primeira planilha. Confira se você concedeu à conta de serviço acesso de Editor à planilha Google.

Exportar o glossário para a planilha Google

Execute o script glossary-export.py. O utilitário solicita a planilha Google de destino e o nome do glossário específico que você quer exportar durante a execução:

python3 glossary-export.py

É possível analisar os registros de execução no diretório logs/ no caminho de execução local. Esses registros ajudam a auditar o processo de transferência e identificar entradas ignoradas ou avisos de formatação.

Verificar os dados do glossário exportado

O script de exportação preenche a planilha Google com as colunas a seguir. Verifique os dados exportados.

Campo Descrição
id Um identificador exclusivo para o termo ou categoria no glossário.
parent O ID da categoria mãe.
display_name O nome de exibição do termo ou categoria.
description Uma breve descrição do termo ou categoria.
overview Uma descrição de texto avançado do termo ou categoria (aceita tags HTML).
type O tipo de linha: TERM ou CATEGORY.
contact1_email Endereço de e-mail do administrador de dados principal do termo ou categoria.
contact1_name Nome do administrador de dados principal do termo ou categoria.
contact2_email Endereço de e-mail do administrador de dados secundário do termo ou categoria.
contact2_name Nome do administrador de dados secundário do termo ou categoria.
label1_key Chave do primeiro rótulo atribuído.
label1_value Valor do primeiro rótulo atribuído.
label2_key Chave do segundo rótulo atribuído.
label2_value Valor do segundo rótulo atribuído.

A seguir