Talvez você já tenha se perguntado: "O que significa esse nome de coluna?", "Quem é o proprietário desse conjunto de dados corrompido?" ou "Essa tabela está aprovada para uso?". Alguns catálogos de dados usam tags não estruturadas para adicionar essas informações, mas as tags ficam desatualizadas ou inconsistentes rapidamente. O Knowledge Catalog (antigo Dataplex Universal Catalog) evita esse problema, permitindo que você anexe metadados estruturados e orientados por esquema e definições comerciais claras diretamente aos seus recursos de dados. Essa abordagem ajuda a criar uma governança programática em escala.
Este tutorial mostra como começar a usar a governança de dados no Knowledge Catalog. Criado para engenheiros de dados, administradores de banco de dados e arquitetos de dados, este tutorial explica as etapas manuais da UI para ajudar você a criar um modelo mental forte antes de automatizar esses fluxos de trabalho. Ele esclarece as relações entre os principais conceitos do Knowledge Catalog. Ao final, você saberá como tornar seus dados detectáveis e confiáveis.
Objetivos
Neste tutorial, você vai aprender a:
- Criar uma única fonte de verdade para seus termos comerciais com um glossário empresarial.
- Estruturar e organizar seus metadados com tipos de aspectos.
- Anexar metadados aos seus recursos com aspectos.
- Usar a pesquisa do Knowledge Catalog para encontrar exatamente o que você precisa usando esses novos metadados estruturados.
Antes de começar
Antes de começar, faça o seguinte:
- Selecione um Google Cloud projeto para este tutorial.
- Confirme se o faturamento está ativado para seu projeto.
Configurar o ambiente
Este tutorial usa o Cloud Shell, um ambiente de linha de comando executado na nuvem.
Noconsole, clique em Ativar o Cloud Shell na barra de ferramentas no canto superior direito. Google Cloud O provisionamento e a conexão do ambiente podem levar alguns instantes.
No Cloud Shell, defina as variáveis
PROJECT_IDeLOCATIONpara que todos os comandos futuros sejam direcionados ao seu Google Cloud projeto específico.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Ative osserviços necessários Google Cloud .
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Criar um conjunto de dados do BigQuery e preparar dados de amostra
Use o código a seguir para criar um conjunto de dados do BigQuery e carregar algumas transações CSV de amostra em uma tabela. Depois de criar a tabela, o Knowledge Catalog a detecta automaticamente e cria uma entrada para ela no catálogo.
Pense em uma entrada como a representação de um recurso de dados do Knowledge Catalog. É como um registro no catálogo ao qual você pode anexar metadados de governança. Em vez de governar a tabela do BigQuery diretamente, você governa a entrada dela no Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Execute uma consulta SELECT para verificar a configuração:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Exemplo de saída:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Estabelecer termos comuns com um glossário empresarial
Uma boa governança depende de definições claras. Por exemplo, um desenvolvedor não precisa adivinhar se uma coluna chamada gmv significa valor bruto da mercadoria ou se inclui impostos ou devoluções. Um glossário empresarial resolve isso criando uma única fonte de verdade que desvincula as definições comerciais dos detalhes técnicos. Isso garante que termos como valor bruto da mercadoria signifiquem a mesma coisa para todos, da equipe de vendas às finanças.
Siga estas etapas para criar um glossário e definir seu primeiro termo:
Noconsole, acesse a página Glossários do Knowledge Catalog. Google Cloud
Clique em Criar glossário de negócios.
Digite os seguintes detalhes:
- Nome de exibição:
Retail Business Glossary - Local:
us-central1 (Iowa)
- Nome de exibição:
Clique em Criar.
Clique em Criar categoria.
Nomeie a categoria
Sales Metricse clique em Criar.Selecione a categoria Sales Metrics e clique em Adicionar termo.
Nomeie o termo
Gross Merchandise Valuee clique em Criar.Clique no termo Gross Merchandise Value para abrir a página de detalhes.
Clique em Adicionar ao lado de Visão geral. Insira os seguintes detalhes:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Clique em Salvar.
Agora você criou um termo de glossário que pode ser vinculado a recursos de dados em toda a organização.
Definir metadados técnicos com um tipo de aspecto
Se você precisar rastrear quem é o proprietário de um recurso de dados específico, as tags de chave-valor não serão suficientes. Você não quer uma tabela marcada como owner:bob e outra contact:alice@example.com. Você quer um esquema estruturado que exija que as informações do proprietário estejam em um formato de e-mail válido.
Para atender a essa necessidade, o Knowledge Catalog oferece suporte a tipos de aspectos. Um tipo de aspecto é como um modelo para seus metadados que permite definir regras claras e campos obrigatórios. Isso garante que todos os metadados adicionados posteriormente permaneçam organizados.
No Google Cloud console, acesse a guia Tipos de aspectos do Knowledge Catalog na página Tipos de metadados.
Na guia Personalizado, clique em Criar.
Digite os seguintes detalhes:
- Nome de exibição:
Data Asset Governance - Local:
us-central1 (Iowa)
- Nome de exibição:
Na seção Modelo, clique em Adicionar campo para criar os três campos a seguir:
Campo 1 :
- Nome de exibição:
Data Steward - Tipo:
Text - É obrigatório: marque a caixa de seleção.
- Tipo de texto:
Plain text
- Nome de exibição:
Campo 2 (clique em Adicionar campo):
- Nome de exibição:
Data Sensitivity - Tipo:
Enum - É obrigatório: deixe opcional.
- Valores: adicione
Public,Internal, eConfidential
- Nome de exibição:
Campo 3 (clique em Adicionar um campo):
- Nome de exibição:
Last Review Date - É obrigatório: deixe opcional.
- Tipo:
Date and time
- Nome de exibição:
Clique em Salvar.
Agora você tem um tipo de aspecto para campos de metadados relacionados à governança, como administrador de dados, nível de sensibilidade e data de revisão. Na próxima seção, você vai aplicar esse esquema a uma entrada de tabela anexando um aspecto com valores específicos para esses campos.
Enriquecer uma entrada com metadados de governança
Os nomes das colunas costumam ser abreviados ou ambíguos. Vincular uma coluna a um termo no glossário empresarial fornece uma definição clara e consistente. Nesta etapa, você vai enriquecer a entrada da tabela retail_data.transactions vinculando o termo Gross Merchandise Value a uma coluna chamada gmv e usando o tipo de aspecto para anexar um aspecto à entrada da tabela.
Vincular uma coluna a um termo comercial
Para esclarecer o que é a coluna gmv em retail_data.transactions, vincule-a ao termo Gross Merchandise Value.
Noconsole, acesse a página Pesquisa do Knowledge Catalog. Google Cloud
Clique em Filtros para abrir o painel Filtros.
Em Escopo, selecione Projeto atual.
Pesquise
retail_data.transactionse clique na tabela de transações retornada.Clique na guia Esquema.
Marque a caixa de seleção ao lado da coluna
gmve clique em Adicionar termo comercial.Selecione
Gross Merchandise Value.
Anexar um aspecto à entrada da tabela
Além de vincular termos comerciais a colunas, você pode anexar um aspecto a uma entrada de tabela para capturar metadados de governança no nível da tabela, como propriedade e sensibilidade dos dados.
Um aspecto é uma instância de um tipo de aspecto que contém valores específicos para campos de metadados. Ao anexar um aspecto a uma entrada, o Knowledge Catalog verifica as informações fornecidas no esquema definido no tipo de aspecto para garantir a consistência.
Para definir a propriedade e a sensibilidade da tabela retail_data.transactions, anexe o aspecto Data Asset Governance:
- Na guia Detalhes da página de entrada
retail_data.transactions, clique em Adicionar ao lado de Aspectos opcionais. - Selecione
Data Asset Governancena lista. Insira valores nos campos:
- Administrador de dados:
finance-team@example.com - Sensibilidade dos dados:selecione Interno.
- Data da última revisão:selecione a data de hoje.
- Administrador de dados:
Clique em Salvar.
Agora você configurou uma base sólida para a governança de dados no Knowledge Catalog.
Pesquisar entradas usando metadados enriquecidos
Você enriqueceu a entrada retail_data.transactions vinculando uma coluna a um termo comercial e anexando um aspecto. Agora você pode usar a pesquisa do Knowledge Catalog para encontrar entradas com base nesses contextos comerciais. Por exemplo, é possível encontrar todos os recursos com um nível de sensibilidade específico ou pesquisar o termo do glossário para descobrir as tabelas subjacentes.
Noconsole, acesse a página Pesquisa do Knowledge Catalog. Google Cloud
Clique em Filtros para abrir o painel Filtros.
Em Escopo, selecione Projeto atual.
Na barra de pesquisa, digite
Find tables where the Data Asset Governance aspect has Internal sensitivity.A tabela
retail_data.transactionsvai aparecer na lista de resultados.Limpe a barra de pesquisa e digite
Find tables with the Gross Merchandise Value term attached.A tabela
retail_data.transactionsvai aparecer novamente nos resultados, já que a colunagmvestá diretamente vinculada a esse termo comercial.
Limpar
Para evitar cobranças, exclua os recursos criados neste tutorial.
Excluir o conjunto de dados de amostra
Para excluir o conjunto de dados de amostra do BigQuery e todas as tabelas dele, use o comando a seguir. Essa ação é irreversível.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Excluir artefatos do Knowledge Catalog
No Google Cloud console, acesse a guia Tipos de aspectos do Knowledge Catalog na página Tipos de metadados.
Selecione o tipo de aspecto
data_asset_governancee clique em Excluir.Noconsole, acesse a página Glossários do Knowledge Catalog. Google Cloud
Selecione o termo
Gross Merchandise Valuee clique em Excluir.Selecione a categoria
Sales Metricse clique em Excluir.Selecione o
Retail Business Glossarye clique em Excluir.
A seguir
- Gerenciar glossários empresariais: saiba mais sobre como estabelecer um vocabulário padronizado para seus dados em Gerenciar um glossário empresarial.
- Enriquecer o contexto de metadados:saiba mais sobre como adicionar um contexto significativo usando aspectos em Gerenciar aspectos e enriquecer metadados.
- Automatizar a anexação de aspectos: anexe aspectos a novos conjuntos de dados com funções do Cloud Run ou do Cloud Build.
- Governança como código: gerencie esquemas no controle de versões usando o provedor do Terraform do Google Cloud.