Usar o Knowledge Catalog com o BigQuery
O Knowledge Catalog (antigo Dataplex Universal Catalog) interage com o BigQuery como uma camada central de governança de dados e acesso por agente para os metadados do BigQuery. Para mais informações, consulte a Visão geral do Knowledge Catalog.
Como usar o Knowledge Catalog com o BigQuery?
O Knowledge Catalog interage com o BigQuery das seguintes maneiras:
Ingestão automatizada de metadados
O Knowledge Catalog descobre e indexa automaticamente metadados técnicos de recursos do BigQuery. Isso inclui o seguinte:
- Tipos de recursos: conjuntos de dados, tabelas, visualizações, modelos, rotinas, conexões e conjuntos de dados vinculados.
- BigQuery Sharing: trocas e listagens do BigQuery Sharing (antigo Analytics Hub).
- Atualizações em tempo real: o sistema oferece suporte à ingestão quase em tempo real e fornece feeds de mudanças de metadados usando o Pub/Sub para notificar sistemas downstream sobre mudanças ou exclusões de esquema no BigQuery.
- Descoberta de dados desconhecidos: o Knowledge Catalog pode analisar arquivos não estruturados (como PDFs no Cloud Storage), extrair entidades e convertê-las em recursos pesquisáveis no BigQuery. Esse recurso disponibiliza para análise baseada no BigQuery e embasamento de IA os "dados ocultos" que antes eram inacessíveis.
Representação e enriquecimento de metadados
- Entradas: cada tabela ou recurso do BigQuery é representado como uma entrada no catálogo, em vez da tabela inteira. Por exemplo,
project.dataset.table. - Metadados no nível da coluna: colunas ou campos individuais são representados como caminhos, permitindo anexar metadados específicos, como marcadores de PII ou pontuações de qualidade de dados, a campos individuais em uma tabela do BigQuery, em vez de apenas à tabela em si.
- Aspectos: os metadados técnicos são enriquecidos com aspectos, que adicionam contexto comercial aos dados, como propriedade, qualidade de dados e documentação.
- Produtos de dados: é possível agrupar recursos relacionados do BigQuery em produtos de dados, como dados da empresa de e-commerce, que têm acesso compartilhado e restrições de governança.
Descoberta e pesquisa de dados
- Pesquisa semântica: os usuários podem usar a linguagem natural para pesquisar dados do BigQuery, o que é especialmente útil para cientistas de dados e agentes de IA encontrarem produtos de dados confiáveis usando consultas longas ou complexas.
- Tradução de nomes: para facilitar a pesquisa programática, o sistema permite traduzir nomes SQL do BigQuery ou nomes totalmente qualificados em nomes de entradas do Knowledge Catalog.
Acesso e embasamento de agentes
- Acesso agêntico: os agentes de IA podem descobrir e usar de forma adaptativa as ferramentas do Knowledge Catalog por um servidor MCP local ou remoto.
- Contexto para agentes de IA: o Knowledge Catalog organiza um gráfico de contexto que vincula conjuntos de dados do BigQuery à semântica de negócios, ajudando a reduzir as alucinações de IA ao garantir que os modelos usem dados aprovados pela empresa.
Governança e compliance
- Linhagem de dados: o Knowledge Catalog rastreia automaticamente como os dados fluem e se transformam em tabelas do BigQuery e fora delas. Essa capacidade é essencial para auditar informações sensíveis, como PII, em todo o patrimônio de dados.
- Controle de acesso:o gerenciamento de metadados é integrado ao Identity and Access Management (IAM) e ao VPC Service Controls para garantir que a descoberta e o acesso aos metadados do BigQuery sigam as políticas de segurança organizacionais.
Considerações sobre a migração
A migração para o Knowledge Catalog do Data Catalog descontinuado envolve várias etapas. Os metadados padrão do BigQuery (como conjuntos de dados, tabelas e visualizações) ficam disponíveis automaticamente no Knowledge Catalog. Portanto, o processo de migração se concentra principalmente em metadados personalizados, uso da API e padrões da interface do usuário.
Estes são os principais pontos a serem considerados ao migrar:
Entenda a mudança
O Knowledge Catalog oferece recursos aprimorados para gerenciamento, governança e descoberta de metadados em comparação com o Data Catalog. O Knowledge Catalog usa uma API diferente (a API Knowledge Catalog) e tem um modelo de dados um pouco diferente. Por exemplo, o Knowledge Catalog usa aspectos e tipos de aspecto em vez de tags e modelos de tag.
Avaliar o uso atual do catálogo de dados
- Sem metadados personalizados: se você usou apenas o Knowledge Catalog para a ingestão e descoberta automáticas de metadados padrão do BigQuery sem criar tags, modelos de tags, entradas ou grupos de entradas personalizados, a transição é simples. Você pode começar a usar a interface do Knowledge Catalog imediatamente.
- Metadados personalizados ou uso programático: se você criou tags ou modelos personalizados, entradas personalizadas ou usa a API Data Catalog, bibliotecas de cliente, comandos da Google Cloud CLI ou o Terraform, é necessário fazer uma transição mais estruturada.
Considerações específicas sobre o BigQuery
- Ingestão automática: os metadados técnicos de recursos do BigQuery (conjuntos de dados, tabelas, visualizações, modelos e rotinas) continuam sendo ingeridos automaticamente no Knowledge Catalog, assim como no Dataplex Universal Catalog.
- Tags de política: as tags de política usadas para o controle de acesso no nível da coluna do BigQuery não estão descontinuadas, e o gerenciamento delas continua no BigQuery.
- Linhagem: a linhagem de dados para operações do BigQuery aparece no Knowledge Catalog. Para mais informações sobre a linhagem de dados, consulte Rastrear a linhagem de dados de uma tabela do BigQuery.
Siga o guia de transição
Para migrar para o Knowledge Catalog, siga as etapas em Fazer a transição do Data Catalog para o Knowledge Catalog.
Para atualizar fluxos de trabalho programáticos para a API Knowledge Catalog, consulte Mapear métodos da API Data Catalog para o Knowledge Catalog.
A seguir
Saiba mais sobre o Knowledge Catalog:
- Casos de uso do Knowledge Catalog
- Perguntas frequentes sobre o Knowledge Catalog
- Sobre o gerenciamento de metadados no Knowledge Catalog