Você provavelmente já fez perguntas como "O que significa o nome desta coluna?", "Quem é o proprietário deste conjunto de dados corrompido?" ou "Esta tabela está aprovada para uso?" Alguns catálogos de dados usam tags não estruturadas para adicionar essas informações, mas elas rapidamente ficam desatualizadas ou inconsistentes. O Knowledge Catalog (antigo Dataplex Universal Catalog) evita esse problema ao permitir que você anexe metadados estruturados e orientados por esquema e definições de negócios claras diretamente aos seus recursos de dados. Essa abordagem ajuda a criar governança programática em grande escala.
Neste tutorial, mostramos como começar a usar a governança de dados no Knowledge Catalog. Criado para engenheiros de dados, administradores de banco de dados e arquitetos de dados, este tutorial mostra as etapas manuais da UI para ajudar você a criar um modelo mental sólido antes de automatizar esses fluxos de trabalho. Ele esclarece as relações entre os principais conceitos do Knowledge Catalog. Ao final, você vai saber como tornar seus dados detectáveis e confiáveis.
Objetivos
Neste tutorial, você aprenderá a realizar as seguintes tarefas:
- Crie uma única fonte de verdade para seus termos comerciais com um glossário empresarial.
- Estruture e organize seus metadados com tipos de aspectos.
- Anexe metadados aos seus recursos com aspectos.
- Use a pesquisa do Knowledge Catalog para encontrar exatamente o que você precisa usando esses novos metadados estruturados.
Antes de começar
Antes de começar, faça o seguinte:
- Selecione um projetoGoogle Cloud para este tutorial.
- Confirme se o faturamento está ativado para o projeto.
Configurar o ambiente
Este tutorial usa o Cloud Shell, um ambiente de linha de comando executado na nuvem.
No Google Cloud console, clique em Ativar o Cloud Shell na barra de ferramentas do canto superior direito. O provisionamento e a conexão do ambiente podem demorar um pouco.
No Cloud Shell, defina as variáveis
PROJECT_IDeLOCATIONpara que todos os comandos futuros sejam direcionados ao seu projeto Google Cloud específico.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Ative os serviços Google Cloud necessários.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Criar um conjunto de dados do BigQuery e preparar dados de amostra
Use o código a seguir para criar um conjunto de dados do BigQuery e carregar algumas transações CSV de exemplo em uma tabela. Depois de criar a tabela, o Knowledge Catalog a descobre automaticamente e cria uma entrada para ela no catálogo.
Pense em uma entrada como a representação de um recurso de dados no Knowledge Catalog. É como um registro no catálogo ao qual você pode anexar metadados de governança. Em vez de governar a tabela do BigQuery diretamente, você governa a entrada dela no Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Execute uma consulta SELECT para verificar sua configuração:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Exemplo de saída:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Estabelecer termos comuns com um glossário empresarial
Uma boa governança depende de definições claras. Por exemplo, um desenvolvedor não precisa adivinhar se uma coluna chamada gmv significa valor bruto de mercadorias ou se inclui tributos ou devoluções. Um glossário empresarial resolve isso criando uma única fonte de verdade que separa as definições de negócios dos detalhes técnicos. Isso garante que termos como valor bruto de mercadorias tenham o mesmo significado para todos, desde a equipe de vendas até a de finanças.
Siga estas etapas para criar um glossário e definir seu primeiro termo:
No console Google Cloud , acesse a página Glossários do Knowledge Catalog.
Clique em Criar glossário de negócios.
Digite os seguintes detalhes:
- Nome de exibição:
Retail Business Glossary - Local:
us-central1 (Iowa)
- Nome de exibição:
Clique em Criar.
Clique em Criar categoria.
Nomeie a categoria como
Sales Metricse clique em Criar.Selecione a categoria Métricas de vendas e clique em Adicionar termo.
Nomeie o termo
Gross Merchandise Valuee clique em Criar.Clique no termo Valor bruto da mercadoria para abrir a página de detalhes.
Clique em Adicionar ao lado de Visão geral. Digite os seguintes detalhes:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Clique em Salvar.
Você criou um termo do glossário que pode ser vinculado a recursos de dados em toda a organização.
Definir metadados técnicos com um tipo de aspecto
Se você precisar rastrear quem é o proprietário de um determinado recurso de dados, as tags de chave-valor não serão suficientes. Não convém ter uma tabela marcada como owner:bob e outra como contact:alice@example.com. Você quer um esquema estruturado que exija que as informações do proprietário estejam em um formato de e-mail válido.
Para atender a essa necessidade, o Knowledge Catalog é compatível com tipos de aspecto. Um tipo de aspecto é como um blueprint para seus metadados que permite definir regras claras e campos obrigatórios. Isso garante que os metadados adicionados depois fiquem organizados.
No console Google Cloud , acesse a guia Tipos de aspectos na página Tipos de metadados do Knowledge Catalog.
Na guia Personalizada, clique em Criar.
Digite os seguintes detalhes:
- Nome de exibição:
Data Asset Governance - Local:
us-central1 (Iowa)
- Nome de exibição:
Na seção Modelo, clique em Adicionar campo para criar os três campos a seguir:
Campo 1:
- Nome de exibição:
Data Steward - Tipo:
Text - Obrigatório: marque a caixa de seleção.
- Tipo de texto:
Plain text
- Nome de exibição:
Campo 2 (clique em Adicionar campo):
- Nome de exibição:
Data Sensitivity - Tipo:
Enum - É obrigatório: deixe como opcional.
- Valores: adicione
Public,InternaleConfidential.
- Nome de exibição:
Campo 3 (clique em Adicionar um campo):
- Nome de exibição:
Last Review Date - É obrigatório: deixe como opcional.
- Tipo:
Date and time
- Nome de exibição:
Clique em Salvar.
Agora você tem um tipo de aspecto para campos de metadados relacionados à governança, como administrador de dados, nível de sensibilidade e data de revisão. Na próxima seção, você vai aplicar esse esquema a uma entrada de tabela anexando um aspecto com valores específicos para esses campos.
Enriquecer uma entrada com metadados de governança
Os nomes das colunas costumam ser abreviados ou ambíguos. Vincular uma coluna a um termo no glossário empresarial oferece uma definição clara e consistente. Nesta etapa, você vai enriquecer a entrada da tabela retail_data.transactions vinculando o termo Gross Merchandise Value a uma coluna chamada gmv e usando seu tipo de aspecto para anexar um aspecto à entrada da tabela.
Vincular uma coluna a um termo comercial
Para esclarecer o que é a coluna gmv em retail_data.transactions, vincule-a ao termo Gross Merchandise Value.
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Clique em Filtros para abrir o painel Filtros.
Em Escopo, selecione Projeto atual.
Pesquise
retail_data.transactionse clique na tabela de transações retornada.Clique na guia Esquema.
Marque a caixa de seleção ao lado da coluna
gmve clique em Adicionar termo comercial.Selecione
Gross Merchandise Value.
Anexar um aspecto à entrada da tabela
Além de vincular termos comerciais a colunas, você pode anexar um aspecto a uma entrada de tabela para capturar metadados de governança no nível da tabela, como propriedade e sensibilidade dos dados.
Um aspecto é uma instância de um tipo de aspecto que contém valores específicos para campos de metadados. Quando você anexa um aspecto a uma entrada, o Knowledge Catalog verifica as informações fornecidas em relação ao esquema definido no tipo de aspecto para garantir a consistência.
Para definir a propriedade e a sensibilidade da tabela retail_data.transactions, anexe o aspecto Data Asset Governance:
- Na guia Detalhes da página de entrada
retail_data.transactions, clique em Adicionar ao lado de Aspectos opcionais. - Selecione
Data Asset Governancena lista. Insira valores nos campos:
- Administrador de dados:
finance-team@example.com - Sensibilidade dos dados:selecione Interno.
- Data da última revisão:selecione a data de hoje.
- Administrador de dados:
Clique em Salvar.
Agora você tem uma base sólida para a governança de dados no Knowledge Catalog.
Pesquisar entradas usando metadados enriquecidos
Você enriqueceu a entrada retail_data.transactions vinculando uma coluna a um termo comercial e anexando um aspecto. Agora você pode usar a pesquisa do Knowledge Catalog para encontrar entradas com base nesses contextos de negócios. Por exemplo, você pode encontrar todos os recursos com um nível de sensibilidade específico ou pesquisar seu termo do glossário para descobrir as tabelas subjacentes.
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Clique em Filtros para abrir o painel Filtros.
Em Escopo, selecione Projeto atual.
Na barra de pesquisa, digite
Find tables where the Data Asset Governance aspect has Internal sensitivity..A tabela
retail_data.transactionsvai aparecer na lista de resultados.Limpe a barra de pesquisa e digite
Find tables with the Gross Merchandise Value term attached..A tabela
retail_data.transactionsvai aparecer novamente nos resultados, já que a colunagmvestá diretamente vinculada a esse termo comercial.
Limpar
Para evitar cobranças, exclua os recursos criados neste tutorial.
Excluir o conjunto de dados de amostra
Para excluir o conjunto de dados de amostra do BigQuery e todas as tabelas dele, use o comando a seguir. Essa ação é irreversível.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Excluir artefatos do Knowledge Catalog
No console Google Cloud , acesse a guia Tipos de aspectos na página Tipos de metadados do Knowledge Catalog.
Selecione o tipo de aspecto
data_asset_governancee clique em Excluir.No console Google Cloud , acesse a página Glossários do Knowledge Catalog.
Selecione o termo
Gross Merchandise Valuee clique em Excluir.Selecione a categoria
Sales Metricse clique em Excluir.Selecione o
Retail Business Glossarye clique em Excluir.
A seguir
- Gerenciar glossários empresariais:saiba mais sobre como estabelecer um vocabulário padronizado para seus dados em Gerenciar um glossário empresarial.
- Enriqueça o contexto dos metadados:saiba como adicionar um contexto significativo usando aspectos em Gerenciar aspectos e enriquecer metadados.
- Automatizar a vinculação de aspectos:vincule aspectos a novos conjuntos de dados com as funções do Cloud Run ou o Cloud Build.
- Governança como código:gerencie esquemas no controle de versões usando o provedor do Terraform para o Google Cloud.