Criar uma governança de dados fundamental

Você provavelmente já fez perguntas como "O que significa o nome desta coluna?", "Quem é o proprietário deste conjunto de dados corrompido?" ou "Esta tabela está aprovada para uso?" Alguns catálogos de dados usam tags não estruturadas para adicionar essas informações, mas elas rapidamente ficam desatualizadas ou inconsistentes. O Knowledge Catalog (antigo Dataplex Universal Catalog) evita esse problema ao permitir que você anexe metadados estruturados e orientados por esquema e definições de negócios claras diretamente aos seus recursos de dados. Essa abordagem ajuda a criar governança programática em grande escala.

Neste tutorial, mostramos como começar a usar a governança de dados no Knowledge Catalog. Criado para engenheiros de dados, administradores de banco de dados e arquitetos de dados, este tutorial mostra as etapas manuais da UI para ajudar você a criar um modelo mental sólido antes de automatizar esses fluxos de trabalho. Ele esclarece as relações entre os principais conceitos do Knowledge Catalog. Ao final, você vai saber como tornar seus dados detectáveis e confiáveis.

Objetivos

Neste tutorial, você aprenderá a realizar as seguintes tarefas:

  • Crie uma única fonte de verdade para seus termos comerciais com um glossário empresarial.
  • Estruture e organize seus metadados com tipos de aspectos.
  • Anexe metadados aos seus recursos com aspectos.
  • Use a pesquisa do Knowledge Catalog para encontrar exatamente o que você precisa usando esses novos metadados estruturados.

Antes de começar

Antes de começar, faça o seguinte:

Configurar o ambiente

Este tutorial usa o Cloud Shell, um ambiente de linha de comando executado na nuvem.

  1. No Google Cloud console, clique em Ativar o Cloud Shell na barra de ferramentas do canto superior direito. O provisionamento e a conexão do ambiente podem demorar um pouco.

  2. No Cloud Shell, defina as variáveis PROJECT_ID e LOCATION para que todos os comandos futuros sejam direcionados ao seu projeto Google Cloud específico.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Ative os serviços Google Cloud necessários.

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Criar um conjunto de dados do BigQuery e preparar dados de amostra

Use o código a seguir para criar um conjunto de dados do BigQuery e carregar algumas transações CSV de exemplo em uma tabela. Depois de criar a tabela, o Knowledge Catalog a descobre automaticamente e cria uma entrada para ela no catálogo.

Pense em uma entrada como a representação de um recurso de dados no Knowledge Catalog. É como um registro no catálogo ao qual você pode anexar metadados de governança. Em vez de governar a tabela do BigQuery diretamente, você governa a entrada dela no Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Execute uma consulta SELECT para verificar sua configuração:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Exemplo de saída:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Estabelecer termos comuns com um glossário empresarial

Uma boa governança depende de definições claras. Por exemplo, um desenvolvedor não precisa adivinhar se uma coluna chamada gmv significa valor bruto de mercadorias ou se inclui tributos ou devoluções. Um glossário empresarial resolve isso criando uma única fonte de verdade que separa as definições de negócios dos detalhes técnicos. Isso garante que termos como valor bruto de mercadorias tenham o mesmo significado para todos, desde a equipe de vendas até a de finanças.

Siga estas etapas para criar um glossário e definir seu primeiro termo:

  1. No console Google Cloud , acesse a página Glossários do Knowledge Catalog.

    Acessar "Glossários"

  2. Clique em Criar glossário de negócios.

  3. Digite os seguintes detalhes:

    • Nome de exibição: Retail Business Glossary
    • Local: us-central1 (Iowa)
  4. Clique em Criar.

  5. Clique em Criar categoria.

  6. Nomeie a categoria como Sales Metrics e clique em Criar.

  7. Selecione a categoria Métricas de vendas e clique em Adicionar termo.

  8. Nomeie o termo Gross Merchandise Value e clique em Criar.

  9. Clique no termo Valor bruto da mercadoria para abrir a página de detalhes.

  10. Clique em Adicionar ao lado de Visão geral. Digite os seguintes detalhes: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Clique em Salvar.

Você criou um termo do glossário que pode ser vinculado a recursos de dados em toda a organização.

Definir metadados técnicos com um tipo de aspecto

Se você precisar rastrear quem é o proprietário de um determinado recurso de dados, as tags de chave-valor não serão suficientes. Não convém ter uma tabela marcada como owner:bob e outra como contact:alice@example.com. Você quer um esquema estruturado que exija que as informações do proprietário estejam em um formato de e-mail válido.

Para atender a essa necessidade, o Knowledge Catalog é compatível com tipos de aspecto. Um tipo de aspecto é como um blueprint para seus metadados que permite definir regras claras e campos obrigatórios. Isso garante que os metadados adicionados depois fiquem organizados.

  1. No console Google Cloud , acesse a guia Tipos de aspectos na página Tipos de metadados do Knowledge Catalog.

    Acessar "Tipos de aspectos"

  2. Na guia Personalizada, clique em Criar.

  3. Digite os seguintes detalhes:

    • Nome de exibição: Data Asset Governance
    • Local: us-central1 (Iowa)
  4. Na seção Modelo, clique em Adicionar campo para criar os três campos a seguir:

    • Campo 1:

      • Nome de exibição: Data Steward
      • Tipo: Text
      • Obrigatório: marque a caixa de seleção.
      • Tipo de texto: Plain text
    • Campo 2 (clique em Adicionar campo):

      • Nome de exibição: Data Sensitivity
      • Tipo: Enum
      • É obrigatório: deixe como opcional.
      • Valores: adicione Public, Internal e Confidential.
    • Campo 3 (clique em Adicionar um campo):

      • Nome de exibição: Last Review Date
      • É obrigatório: deixe como opcional.
      • Tipo: Date and time
  5. Clique em Salvar.

Agora você tem um tipo de aspecto para campos de metadados relacionados à governança, como administrador de dados, nível de sensibilidade e data de revisão. Na próxima seção, você vai aplicar esse esquema a uma entrada de tabela anexando um aspecto com valores específicos para esses campos.

Enriquecer uma entrada com metadados de governança

Os nomes das colunas costumam ser abreviados ou ambíguos. Vincular uma coluna a um termo no glossário empresarial oferece uma definição clara e consistente. Nesta etapa, você vai enriquecer a entrada da tabela retail_data.transactions vinculando o termo Gross Merchandise Value a uma coluna chamada gmv e usando seu tipo de aspecto para anexar um aspecto à entrada da tabela.

Para esclarecer o que é a coluna gmv em retail_data.transactions, vincule-a ao termo Gross Merchandise Value.

  1. No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.

    Acesse Pesquisar

  2. Clique em Filtros para abrir o painel Filtros.

  3. Em Escopo, selecione Projeto atual.

  4. Pesquise retail_data.transactions e clique na tabela de transações retornada.

  5. Clique na guia Esquema.

  6. Marque a caixa de seleção ao lado da coluna gmv e clique em Adicionar termo comercial.

  7. Selecione Gross Merchandise Value.

Anexar um aspecto à entrada da tabela

Além de vincular termos comerciais a colunas, você pode anexar um aspecto a uma entrada de tabela para capturar metadados de governança no nível da tabela, como propriedade e sensibilidade dos dados.

Um aspecto é uma instância de um tipo de aspecto que contém valores específicos para campos de metadados. Quando você anexa um aspecto a uma entrada, o Knowledge Catalog verifica as informações fornecidas em relação ao esquema definido no tipo de aspecto para garantir a consistência.

Para definir a propriedade e a sensibilidade da tabela retail_data.transactions, anexe o aspecto Data Asset Governance:

  1. Na guia Detalhes da página de entrada retail_data.transactions, clique em Adicionar ao lado de Aspectos opcionais.
  2. Selecione Data Asset Governance na lista.
  3. Insira valores nos campos:

    • Administrador de dados:finance-team@example.com
    • Sensibilidade dos dados:selecione Interno.
    • Data da última revisão:selecione a data de hoje.
  4. Clique em Salvar.

Agora você tem uma base sólida para a governança de dados no Knowledge Catalog.

Pesquisar entradas usando metadados enriquecidos

Você enriqueceu a entrada retail_data.transactions vinculando uma coluna a um termo comercial e anexando um aspecto. Agora você pode usar a pesquisa do Knowledge Catalog para encontrar entradas com base nesses contextos de negócios. Por exemplo, você pode encontrar todos os recursos com um nível de sensibilidade específico ou pesquisar seu termo do glossário para descobrir as tabelas subjacentes.

  1. No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.

    Acesse Pesquisar

  2. Clique em Filtros para abrir o painel Filtros.

  3. Em Escopo, selecione Projeto atual.

  4. Na barra de pesquisa, digite Find tables where the Data Asset Governance aspect has Internal sensitivity..

  5. A tabela retail_data.transactions vai aparecer na lista de resultados.

  6. Limpe a barra de pesquisa e digite Find tables with the Gross Merchandise Value term attached..

  7. A tabela retail_data.transactions vai aparecer novamente nos resultados, já que a coluna gmv está diretamente vinculada a esse termo comercial.

Limpar

Para evitar cobranças, exclua os recursos criados neste tutorial.

Excluir o conjunto de dados de amostra

Para excluir o conjunto de dados de amostra do BigQuery e todas as tabelas dele, use o comando a seguir. Essa ação é irreversível.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Excluir artefatos do Knowledge Catalog

  1. No console Google Cloud , acesse a guia Tipos de aspectos na página Tipos de metadados do Knowledge Catalog.

    Acessar "Tipos de aspectos"

  2. Selecione o tipo de aspecto data_asset_governance e clique em Excluir.

  3. No console Google Cloud , acesse a página Glossários do Knowledge Catalog.

    Acessar "Glossários"

  4. Selecione o termo Gross Merchandise Value e clique em Excluir.

  5. Selecione a categoria Sales Metrics e clique em Excluir.

  6. Selecione o Retail Business Glossary e clique em Excluir.

A seguir