Exportar links de entradas para uma planilha Google

Este documento explica como usar o utilitário de exportação de links de entrada para extrair links de entrada (relações entre termos do glossário e recursos de dados) do Knowledge Catalog (antigo Dataplex Universal Catalog) para uma planilha Google.

Você pode exportar links de entrada para uma planilha Google para auditar os links atuais, fazer backup dos metadados ou preparar um modelo para atualizações em massa.

Antes de começar

Antes de exportar links de entrada para uma planilha Google, conclua os pré-requisitos a seguir.

Configurar a conta de serviço

Para executar o utilitário de exportação, configure uma conta de serviço com as permissões necessárias para acessar a API Google Sheets e representar suas credenciais de usuário:

  1. Identifique ou crie uma conta de serviço.

    Selecione uma conta de serviço atual ou crie uma no projeto em que você executa o utilitário de importação. Para mais informações, consulte Criar contas de serviço. Anote o e-mail da conta de serviço (por exemplo, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Configure a identidade temporária de conta de serviço.

    Para executar o script do utilitário de exportação localmente, sua conta de usuário precisa ter permissão para representar a conta de serviço. Conceda à conta de usuário o papel Criador de token da conta de serviço (roles/iam.serviceAccountTokenCreator) na conta de serviço.

    Para mais informações, consulte Gerenciar o acesso a contas de serviço.

  3. Conceda à conta de serviço Editor acesso à planilha do Google.

    Abra a planilha Google que você quer usar para o processo de importação, clique em Compartilhar, e adicione o e-mail da conta de serviço como um Editor. Essa permissão permite que a conta de serviço leia ou grave dados na planilha.

Funções exigidas

Para garantir que a conta de serviço tenha as permissões necessárias para exportar links de entrada para uma planilha do Google, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

O administrador também pode conceder à conta de serviço as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Ativar APIs

Para exportar links de entrada, ative as seguintes APIs no seu projeto:

Funções necessárias para ativar APIs

Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.

Ativar as APIs

Configurar o repositório Git

Clone o repositório dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

Instalar dependências

Instale as dependências necessárias do Python:

pip3 install -r requirements.txt
cd dataplex-glossary

Se você tiver problemas com a instalação do pacote, configure um novo ambiente de desenvolvimento Python.

Autenticar e configurar a identidade temporária de conta de serviço

Inicialize a Google Cloud CLI e faça a autenticação usando o Application Default Credentials (ADC) com a identidade temporária de conta de serviço:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud init
gcloud auth login
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Substitua SERVICE_ACCOUNT_EMAIL pelo ID de e-mail da conta de serviço. Exemplo:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Configurar a planilha Google de destino para exportação

Crie uma planilha Google vazia ou use uma atual. O script de exportação grava na primeira planilha. Confira se você concedeu à conta de serviço acesso de Editor à planilha Google.

Configurar variáveis de ambiente

Configure as seguintes variáveis de ambiente:

# Set your glossary URL
export GLOSSARY_URL="GLOSSARY_URL"

# Set your Google Sheet URL
export SPREADSHEET_URL="GOOGLE_SHEET_URL"

# Set the project ID
export USER_PROJECT="USER_PROJECT"

Exportar links de entrada para a planilha Google

Para exportar links de entrada em um glossário para a planilha Google, execute o seguinte script:

cd export
python3 entrylinks-export.py \
  --glossary-url="$GLOSSARY_URL" \
  --spreadsheet-url="$SPREADSHEET_URL" \
  --user-project="$USER_PROJECT"

É possível analisar os registros de execução no diretório logs/ no caminho de execução local. Esses registros ajudam a auditar o processo de transferência e identificar entradas ignoradas ou avisos de formatação.

Verificar os dados de links de entrada exportados

O script de exportação preenche a planilha Google com as seguintes colunas:

Cabeçalho da coluna Descrição
entry_link_type O tipo de link de entrada (definition, related ou synonym).
source_entry O caminho completo do recurso da entrada de origem.
target_entry O caminho completo do recurso da entrada de destino.
source_path Caminho da coluna ou do campo para links de definição.

A seguir