Este documento explica como usar o utilitário de exportação do glossário empresarial para extrair glossários, categorias e termos do Knowledge Catalog (antigo Dataplex Universal Catalog) para uma planilha do Google para gerenciamento e relatórios em massa.
O utilitário glossary_export recupera metadados do glossário empresarial do Knowledge Catalog e preenche uma planilha do Google com um esquema estruturado, incluindo descrições, administradores de dados e rótulos.
Antes de começar
Antes de exportar glossários, conclua os pré-requisitos a seguir.
Configurar a conta de serviço
Para executar o utilitário de exportação, configure uma conta de serviço com as permissões necessárias para acessar a API Google Sheets e representar suas credenciais de usuário:
Identifique ou crie uma conta de serviço.
Selecione uma conta de serviço atual ou crie uma no projeto em que você executa o utilitário de importação. Para mais informações, consulte Criar contas de serviço. Anote o e-mail da conta de serviço (por exemplo,
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).Configure a identidade temporária de conta de serviço.
Para executar o script do utilitário de exportação localmente, sua conta de usuário precisa ter permissão para representar a conta de serviço. Conceda à conta de usuário o papel Criador de token da conta de serviço (
roles/iam.serviceAccountTokenCreator) na conta de serviço.Para mais informações, consulte Gerenciar o acesso a contas de serviço.
Conceda à conta de serviço
Editoracesso à planilha do Google.Abra a planilha Google que você quer usar para o processo de importação, clique em Compartilhar, e adicione o e-mail da conta de serviço como um
Editor. Essa permissão permite que a conta de serviço leia ou grave dados na planilha.
Funções exigidas
Para garantir que a conta de serviço tenha as permissões necessárias para exportar glossários para uma planilha do Google, peça ao administrador para conceder os seguintes papéis do IAM à conta de serviço:
- Administrador do Dataplex (
roles/dataplex.admin) no projeto - Administrador de catálogo do Dataplex (
roles/dataplex.catalogAdmin) no projeto - Editor de catálogo do Dataplex (
roles/dataplex.catalogEditor) no projeto
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
O administrador também pode conceder à conta de serviço as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Ativar APIs
Para exportar glossários, ative as seguintes APIs no seu projeto:
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder
papéis.
Configurar o repositório Git
Clone o repositório dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
Instalar dependências
Instale as dependências necessárias do Python:
pip3 install -r requirements.txt
Se você tiver problemas com a instalação do pacote, configure um novo ambiente de desenvolvimento Python.
Autenticar e configurar a identidade temporária de conta de serviço
Inicialize a Google Cloud CLI e faça a autenticação usando o Application Default Credentials (ADC) com a identidade temporária de conta de serviço:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
Substitua SERVICE_ACCOUNT_EMAIL pelo ID do e-mail da conta de serviço. Exemplo:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
Configurar a planilha Google de destino para exportação
Crie uma planilha Google vazia ou use uma atual. O script de exportação grava na primeira planilha. Confira se você concedeu à conta de serviço acesso de Editor à planilha Google.
Exportar o glossário para a planilha Google
Execute o script glossary-export.py. O utilitário solicita a planilha Google de destino e o nome do glossário específico que você quer exportar durante a execução:
python3 glossary-export.py
É possível analisar os registros de execução no diretório logs/ no caminho de execução local. Esses registros ajudam a auditar o processo de transferência e identificar entradas ignoradas ou avisos de formatação.
Verificar os dados do glossário exportado
O script de exportação preenche a planilha Google com as colunas a seguir. Verifique os dados exportados.
| Campo | Descrição |
|---|---|
id |
Um identificador exclusivo para o termo ou categoria no glossário. |
parent |
O ID da categoria mãe. |
display_name |
O nome de exibição do termo ou categoria. |
description |
Uma breve descrição do termo ou categoria. |
overview |
Uma descrição de texto avançado do termo ou categoria (aceita tags HTML). |
type |
O tipo de linha: TERM ou CATEGORY. |
contact1_email |
Endereço de e-mail do administrador de dados principal do termo ou categoria. |
contact1_name |
Nome do administrador de dados principal do termo ou categoria. |
contact2_email |
Endereço de e-mail do administrador de dados secundário do termo ou categoria. |
contact2_name |
Nome do administrador de dados secundário do termo ou categoria. |
label1_key |
Chave do primeiro rótulo atribuído. |
label1_value |
Valor do primeiro rótulo atribuído. |
label2_key |
Chave do segundo rótulo atribuído. |
label2_value |
Valor do segundo rótulo atribuído. |
A seguir
- Saiba como gerenciar um glossário empresarial.
- Saiba como importar glossários usando arquivos JSON.
- Saiba como importar glossários de uma planilha Google.
- Saiba mais sobre o gerenciamento de metadados.