Criar uma governança de dados fundamental

Talvez você já tenha se perguntado: "O que significa esse nome de coluna?", "Quem é o proprietário desse conjunto de dados corrompido?" ou "Essa tabela está aprovada para uso?". Alguns catálogos de dados usam tags não estruturadas para adicionar essas informações, mas as tags ficam desatualizadas ou inconsistentes rapidamente. O Knowledge Catalog (antigo Dataplex Universal Catalog) evita esse problema, permitindo que você anexe metadados estruturados e orientados por esquema e definições comerciais claras diretamente aos seus recursos de dados. Essa abordagem ajuda a criar uma governança programática em escala.

Este tutorial mostra como começar a usar a governança de dados no Knowledge Catalog. Criado para engenheiros de dados, administradores de banco de dados e arquitetos de dados, este tutorial explica as etapas manuais da UI para ajudar você a criar um modelo mental forte antes de automatizar esses fluxos de trabalho. Ele esclarece as relações entre os principais conceitos do Knowledge Catalog. Ao final, você saberá como tornar seus dados detectáveis e confiáveis.

Objetivos

Neste tutorial, você vai aprender a:

  • Criar uma única fonte de verdade para seus termos comerciais com um glossário empresarial.
  • Estruturar e organizar seus metadados com tipos de aspectos.
  • Anexar metadados aos seus recursos com aspectos.
  • Usar a pesquisa do Knowledge Catalog para encontrar exatamente o que você precisa usando esses novos metadados estruturados.

Antes de começar

Antes de começar, faça o seguinte:

Configurar o ambiente

Este tutorial usa o Cloud Shell, um ambiente de linha de comando executado na nuvem.

  1. Noconsole, clique em Ativar o Cloud Shell na barra de ferramentas no canto superior direito. Google Cloud O provisionamento e a conexão do ambiente podem levar alguns instantes.

  2. No Cloud Shell, defina as variáveis PROJECT_ID e LOCATION para que todos os comandos futuros sejam direcionados ao seu Google Cloud projeto específico.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Ative osserviços necessários Google Cloud .

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Criar um conjunto de dados do BigQuery e preparar dados de amostra

Use o código a seguir para criar um conjunto de dados do BigQuery e carregar algumas transações CSV de amostra em uma tabela. Depois de criar a tabela, o Knowledge Catalog a detecta automaticamente e cria uma entrada para ela no catálogo.

Pense em uma entrada como a representação de um recurso de dados do Knowledge Catalog. É como um registro no catálogo ao qual você pode anexar metadados de governança. Em vez de governar a tabela do BigQuery diretamente, você governa a entrada dela no Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Execute uma consulta SELECT para verificar a configuração:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Exemplo de saída:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Estabelecer termos comuns com um glossário empresarial

Uma boa governança depende de definições claras. Por exemplo, um desenvolvedor não precisa adivinhar se uma coluna chamada gmv significa valor bruto da mercadoria ou se inclui impostos ou devoluções. Um glossário empresarial resolve isso criando uma única fonte de verdade que desvincula as definições comerciais dos detalhes técnicos. Isso garante que termos como valor bruto da mercadoria signifiquem a mesma coisa para todos, da equipe de vendas às finanças.

Siga estas etapas para criar um glossário e definir seu primeiro termo:

  1. Noconsole, acesse a página Glossários do Knowledge Catalog. Google Cloud

    Acessar glossários

  2. Clique em Criar glossário de negócios.

  3. Digite os seguintes detalhes:

    • Nome de exibição: Retail Business Glossary
    • Local: us-central1 (Iowa)
  4. Clique em Criar.

  5. Clique em Criar categoria.

  6. Nomeie a categoria Sales Metrics e clique em Criar.

  7. Selecione a categoria Sales Metrics e clique em Adicionar termo.

  8. Nomeie o termo Gross Merchandise Value e clique em Criar.

  9. Clique no termo Gross Merchandise Value para abrir a página de detalhes.

  10. Clique em Adicionar ao lado de Visão geral. Insira os seguintes detalhes: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Clique em Salvar.

Agora você criou um termo de glossário que pode ser vinculado a recursos de dados em toda a organização.

Definir metadados técnicos com um tipo de aspecto

Se você precisar rastrear quem é o proprietário de um recurso de dados específico, as tags de chave-valor não serão suficientes. Você não quer uma tabela marcada como owner:bob e outra contact:alice@example.com. Você quer um esquema estruturado que exija que as informações do proprietário estejam em um formato de e-mail válido.

Para atender a essa necessidade, o Knowledge Catalog oferece suporte a tipos de aspectos. Um tipo de aspecto é como um modelo para seus metadados que permite definir regras claras e campos obrigatórios. Isso garante que todos os metadados adicionados posteriormente permaneçam organizados.

  1. No Google Cloud console, acesse a guia Tipos de aspectos do Knowledge Catalog na página Tipos de metadados.

    Acessar tipos de aspectos

  2. Na guia Personalizado, clique em Criar.

  3. Digite os seguintes detalhes:

    • Nome de exibição: Data Asset Governance
    • Local: us-central1 (Iowa)
  4. Na seção Modelo, clique em Adicionar campo para criar os três campos a seguir:

    • Campo 1 :

      • Nome de exibição: Data Steward
      • Tipo: Text
      • É obrigatório: marque a caixa de seleção.
      • Tipo de texto: Plain text
    • Campo 2 (clique em Adicionar campo):

      • Nome de exibição: Data Sensitivity
      • Tipo: Enum
      • É obrigatório: deixe opcional.
      • Valores: adicione Public, Internal, e Confidential
    • Campo 3 (clique em Adicionar um campo):

      • Nome de exibição: Last Review Date
      • É obrigatório: deixe opcional.
      • Tipo: Date and time
  5. Clique em Salvar.

Agora você tem um tipo de aspecto para campos de metadados relacionados à governança, como administrador de dados, nível de sensibilidade e data de revisão. Na próxima seção, você vai aplicar esse esquema a uma entrada de tabela anexando um aspecto com valores específicos para esses campos.

Enriquecer uma entrada com metadados de governança

Os nomes das colunas costumam ser abreviados ou ambíguos. Vincular uma coluna a um termo no glossário empresarial fornece uma definição clara e consistente. Nesta etapa, você vai enriquecer a entrada da tabela retail_data.transactions vinculando o termo Gross Merchandise Value a uma coluna chamada gmv e usando o tipo de aspecto para anexar um aspecto à entrada da tabela.

Para esclarecer o que é a coluna gmv em retail_data.transactions, vincule-a ao termo Gross Merchandise Value.

  1. Noconsole, acesse a página Pesquisa do Knowledge Catalog. Google Cloud

    Acessar pesquisa

  2. Clique em Filtros para abrir o painel Filtros.

  3. Em Escopo, selecione Projeto atual.

  4. Pesquise retail_data.transactions e clique na tabela de transações retornada.

  5. Clique na guia Esquema.

  6. Marque a caixa de seleção ao lado da coluna gmv e clique em Adicionar termo comercial.

  7. Selecione Gross Merchandise Value.

Anexar um aspecto à entrada da tabela

Além de vincular termos comerciais a colunas, você pode anexar um aspecto a uma entrada de tabela para capturar metadados de governança no nível da tabela, como propriedade e sensibilidade dos dados.

Um aspecto é uma instância de um tipo de aspecto que contém valores específicos para campos de metadados. Ao anexar um aspecto a uma entrada, o Knowledge Catalog verifica as informações fornecidas no esquema definido no tipo de aspecto para garantir a consistência.

Para definir a propriedade e a sensibilidade da tabela retail_data.transactions, anexe o aspecto Data Asset Governance:

  1. Na guia Detalhes da página de entrada retail_data.transactions, clique em Adicionar ao lado de Aspectos opcionais.
  2. Selecione Data Asset Governance na lista.
  3. Insira valores nos campos:

    • Administrador de dados:finance-team@example.com
    • Sensibilidade dos dados:selecione Interno.
    • Data da última revisão:selecione a data de hoje.
  4. Clique em Salvar.

Agora você configurou uma base sólida para a governança de dados no Knowledge Catalog.

Pesquisar entradas usando metadados enriquecidos

Você enriqueceu a entrada retail_data.transactions vinculando uma coluna a um termo comercial e anexando um aspecto. Agora você pode usar a pesquisa do Knowledge Catalog para encontrar entradas com base nesses contextos comerciais. Por exemplo, é possível encontrar todos os recursos com um nível de sensibilidade específico ou pesquisar o termo do glossário para descobrir as tabelas subjacentes.

  1. Noconsole, acesse a página Pesquisa do Knowledge Catalog. Google Cloud

    Acessar pesquisa

  2. Clique em Filtros para abrir o painel Filtros.

  3. Em Escopo, selecione Projeto atual.

  4. Na barra de pesquisa, digite Find tables where the Data Asset Governance aspect has Internal sensitivity.

  5. A tabela retail_data.transactions vai aparecer na lista de resultados.

  6. Limpe a barra de pesquisa e digite Find tables with the Gross Merchandise Value term attached.

  7. A tabela retail_data.transactions vai aparecer novamente nos resultados, já que a coluna gmv está diretamente vinculada a esse termo comercial.

Limpar

Para evitar cobranças, exclua os recursos criados neste tutorial.

Excluir o conjunto de dados de amostra

Para excluir o conjunto de dados de amostra do BigQuery e todas as tabelas dele, use o comando a seguir. Essa ação é irreversível.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Excluir artefatos do Knowledge Catalog

  1. No Google Cloud console, acesse a guia Tipos de aspectos do Knowledge Catalog na página Tipos de metadados.

    Acessar tipos de aspectos

  2. Selecione o tipo de aspecto data_asset_governance e clique em Excluir.

  3. Noconsole, acesse a página Glossários do Knowledge Catalog. Google Cloud

    Acessar glossários

  4. Selecione o termo Gross Merchandise Value e clique em Excluir.

  5. Selecione a categoria Sales Metrics e clique em Excluir.

  6. Selecione o Retail Business Glossary e clique em Excluir.

A seguir