Este documento explica como usar o utilitário de exportação de links de entrada para extrair links de entrada (relações entre termos do glossário e recursos de dados) do Knowledge Catalog (antigo Dataplex Universal Catalog) para uma planilha Google.
Você pode exportar links de entrada para uma planilha Google para auditar os links atuais, fazer backup dos metadados ou preparar um modelo para atualizações em massa.
Antes de começar
Antes de exportar links de entrada para uma planilha Google, conclua os pré-requisitos a seguir.
Configurar a conta de serviço
Para executar o utilitário de exportação, configure uma conta de serviço com as permissões necessárias para acessar a API Google Sheets e representar suas credenciais de usuário:
Identifique ou crie uma conta de serviço.
Selecione uma conta de serviço atual ou crie uma no projeto em que você executa o utilitário de importação. Para mais informações, consulte Criar contas de serviço. Anote o e-mail da conta de serviço (por exemplo,
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).Configure a identidade temporária de conta de serviço.
Para executar o script do utilitário de exportação localmente, sua conta de usuário precisa ter permissão para representar a conta de serviço. Conceda à conta de usuário o papel Criador de token da conta de serviço (
roles/iam.serviceAccountTokenCreator) na conta de serviço.Para mais informações, consulte Gerenciar o acesso a contas de serviço.
Conceda à conta de serviço
Editoracesso à planilha do Google.Abra a planilha Google que você quer usar para o processo de importação, clique em Compartilhar, e adicione o e-mail da conta de serviço como um
Editor. Essa permissão permite que a conta de serviço leia ou grave dados na planilha.
Funções exigidas
Para garantir que a conta de serviço tenha as permissões necessárias para exportar links de entrada para uma planilha do Google, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço:
- Administrador do Dataplex (
roles/dataplex.admin) no projeto - Administrador de catálogo do Dataplex (
roles/dataplex.catalogAdmin) no projeto - Editor de catálogo do Dataplex (
roles/dataplex.catalogEditor) no projeto
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
O administrador também pode conceder à conta de serviço as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Ativar APIs
Para exportar links de entrada, ative as seguintes APIs no seu projeto:
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder
papéis.
Configurar o repositório Git
Clone o repositório dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
Instalar dependências
Instale as dependências necessárias do Python:
pip3 install -r requirements.txt cd dataplex-glossary
Se você tiver problemas com a instalação do pacote, configure um novo ambiente de desenvolvimento Python.
Autenticar e configurar a identidade temporária de conta de serviço
Inicialize a Google Cloud CLI e faça a autenticação usando o Application Default Credentials (ADC) com a identidade temporária de conta de serviço:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud init gcloud auth login gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
Substitua SERVICE_ACCOUNT_EMAIL pelo ID de e-mail da conta de serviço. Exemplo:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
Configurar a planilha Google de destino para exportação
Crie uma planilha Google vazia ou use uma atual. O script de exportação grava na primeira planilha. Confira se você concedeu à conta de serviço acesso de Editor à planilha Google.
Configurar variáveis de ambiente
Configure as seguintes variáveis de ambiente:
# Set your glossary URL export GLOSSARY_URL="GLOSSARY_URL" # Set your Google Sheet URL export SPREADSHEET_URL="GOOGLE_SHEET_URL" # Set the project ID export USER_PROJECT="USER_PROJECT"
Exportar links de entrada para a planilha Google
Para exportar links de entrada em um glossário para a planilha Google, execute o seguinte script:
cd export python3 entrylinks-export.py \ --glossary-url="$GLOSSARY_URL" \ --spreadsheet-url="$SPREADSHEET_URL" \ --user-project="$USER_PROJECT"
É possível analisar os registros de execução no diretório logs/ no caminho de execução local. Esses registros ajudam a auditar o processo de transferência e identificar entradas ignoradas ou avisos de formatação.
Verificar os dados de links de entrada exportados
O script de exportação preenche a planilha Google com as seguintes colunas:
| Cabeçalho da coluna | Descrição |
|---|---|
entry_link_type |
O tipo de link de entrada (definition, related ou
synonym). |
source_entry |
O caminho completo do recurso da entrada de origem. |
target_entry |
O caminho completo do recurso da entrada de destino. |
source_path |
Caminho da coluna ou do campo para links de definição. |
A seguir
- Saiba como gerenciar um glossário empresarial.
- Saiba como importar links de entrada de uma planilha Google.
- Saiba como exportar glossários para uma planilha Google.
- Saiba mais sobre o gerenciamento de metadados.