Visão geral do Catálogo de Conhecimento

O Knowledge Catalog é um catálogo de dados com tecnologia do Gemini que oferece contexto e governança universais para toda a sua propriedade de dados. Ao extrair automaticamente a semântica de dados estruturados e não estruturados, ele cria um gráfico de contexto dinâmico que fundamenta os agentes de IA na verdade empresarial e reduz as alucinações. As equipes de dados e os desenvolvedores de IA usam o Knowledge Catalog para descobrir dados, aplicar políticas e recuperar contexto avançado para análises e aplicativos autônomos.

O Dataplex Universal Catalog agora é o Knowledge Catalog

Para refletir melhor a visão de unificar a governança de dados com recursos de IA generativa, o Dataplex Universal Catalog agora é o Knowledge Catalog. Essa evolução do nome do produto representa uma mudança de um registro de metadados convencional e passivo para um gráfico de contexto ativo com tecnologia de IA.

Por que o Dataplex se tornou o Knowledge Catalog?

À medida que as organizações aceleram a adoção da IA generativa, os agentes de IA precisam de um contexto comercial detalhado para fornecer respostas precisas e fundamentadas. O Knowledge Catalog preenche a lacuna entre a governança de dados corporativos e os fluxos de trabalho de agentes de IA.

Qual é a diferença entre o Dataplex e o Knowledge Catalog?

As atualizações do Knowledge Catalog refletem novas funcionalidades com foco em IA. Ao contrário dos catálogos passivos convencionais, o Knowledge Catalog organiza automaticamente metadados, lógica de negócios e relacionamentos de dados em um gráfico de contexto unificado. Esse gráfico fornece a fonte de verdade empresarial confiável que os agentes de IA precisam para executar tarefas complexas com precisão. Ele usa recursos como curadoria automática de contexto, consultas de exemplo verificadas e integrações locais e remotas do Protocolo de Contexto de Modelo (MCP).

O que não muda

Suas implantações, APIs e configurações atuais do Dataplex permanecem operacionais. Os recursos principais, como descoberta, linhagem e qualidade de dados, além de glossários empresariais, permanecem inalterados e são compatíveis. Seus metadados, aspectos e configurações atuais são transferidos para a nova experiência do Knowledge Catalog sem migração manual, movimentação de dados ou tempo de inatividade.

APIs e bibliotecas de cliente

A mudança de marca para o Knowledge Catalog não altera os endpoints de API, os comandos gcloud dataplex ou as bibliotecas de cliente atuais. Você pode continuar usando as APIs e bibliotecas de cliente do Knowledge Catalog para interagir com ele:

Como o Knowledge Catalog funciona

O Knowledge Catalog unifica a governança e o contexto com três pilares principais:

  • Base de governança. O Knowledge Catalog coleta automaticamente metadados técnicos de serviços do Google Cloud , como BigQuery, AlloyDB para PostgreSQL e Spanner, além de sistemas de terceiros. Ele estabelece uma base de dados confiável com um glossário empresarial centralizado, verificações de qualidade de dados, detecção de anomalias e governança baseada em políticas.

  • Curadoria de contexto. Usando o Gemini, o serviço infere a intenção comercial analisando esquemas, registros de consultas e modelos semânticos em todos os seus dados. Ele gera descrições em linguagem natural, descobre relações e propõe padrões SQL verificados na forma de exemplos de consultas que capturam lógica de negócios complexa.

  • Recuperação de contexto. Os agentes e aplicativos de IA podem descobrir recursos instantaneamente e recuperar contexto enriquecido por meio de pesquisa semântica e ferramentas que oferecem suporte ao Protocolo de Contexto de Modelo (MCP). Assim, os agentes podem acessar a verdade organizacional para tomar decisões confiáveis.

O diagrama a seguir ilustra a arquitetura do Knowledge Catalog e como ele unifica a governança de dados com fluxos de trabalho de IA generativa:

Arquitetura do Knowledge Catalog mostrando a curadoria de metadados, lógica de negócios e relacionamentos de dados em um gráfico de contexto unificado para agentes de IA. Arquitetura do Knowledge Catalog mostrando a curadoria de metadados, lógica de negócios e relacionamentos de dados em um gráfico de contexto unificado para agentes de IA.
Figura 1. Arquitetura do Knowledge Catalog (clique para ampliar)

Casos de uso comuns

O Knowledge Catalog ajuda engenheiros de dados, cientistas de dados e desenvolvedores de IA a resolver desafios no gerenciamento de dados e no desenvolvimento de IA:

  • Enriquecer dados para IA. Use insights de dados para dados não estruturados e extraia automaticamente metadados e entidades de arquivos não estruturados, como PDFs no Cloud Storage. Isso torna os dados obscuros e o conhecimento organizacional acessíveis aos modelos de IA.

  • Reduzir as alucinações de IA. Forneça aos agentes de IA exemplos de consultas pré-verificadas e proteções semânticas, permitindo que eles executem recuperações de dados complexas com mais precisão determinística.

  • Acelere a descoberta de dados. Use a pesquisa semântica e um gráfico de contexto centralizado para localizar recursos de dados relevantes em fontes diferentes para fluxos de trabalho de análise e ciência de dados.

  • Automatizar a criação de produtos de dados. Infera relacionamentos em todo o patrimônio de dados para empacotar recursos em produtos de dados autônomos com contratos de nível de serviço (SLAs) e restrições de governança integrados.

Exemplos de fluxos de trabalho no Knowledge Catalog

Para saber como criar seu gráfico de contexto e gerenciar seu patrimônio de dados, considere como uma empresa de varejo on-line pode usar os seguintes recursos do Knowledge Catalog:

  • Descobrir e catalogar dados. O varejista ingere automaticamente dados de transações e coleta metadados de serviços do Google Cloud , como BigQuery, Pub/Sub e Cloud Storage. O serviço também importa metadados de bancos de dados de inventário personalizados para criar uma visualização unificada de todo o patrimônio de dados de varejo. Para mais informações, consulte Descobrir dados.

  • Pesquise recursos de dados. Um cientista de dados encontra os recursos de dados do cliente exatos que precisa usando o mecanismo de pesquisa do Knowledge Catalog com filtragem facetada, pesquisa semântica em linguagem natural e operadores lógicos. Para mais informações, consulte Pesquisar recursos de dados.

  • Enriqueça os dados com contexto comercial. A equipe de governança de dados define a terminologia do varejo (como "Valor da vida útil" ou "SKU") usando glossários comerciais e insights de dados com tecnologia de IA para gerar automaticamente descrições de novas tabelas de produtos. Eles também aplicam manualmente metadados e tags (aspectos) personalizados estruturados de maneira uniforme em todos os recursos. Para mais informações, consulte Gerenciar aspectos e enriquecer metadados e Gerenciar um glossário empresarial.

  • Entenda as relações de dados com a linhagem. A equipe de engenharia rastreia automaticamente a linhagem de dados para ver como os dados de pedidos se movem, são transformados e consumidos nos sistemas. Eles usam gráficos de linhagem para solução de problemas em pipelines de relatórios, realizar análises de causa raiz em erros de finalização de compra e garantir a conformidade. Para mais informações, consulte Visão geral da linhagem de dados.

  • Criar perfil de dados e medir a qualidade. O varejista usa a criação de perfis de dados automatizada para identificar padrões e anomalias nas tabelas de preços do BigQuery. Eles definem e executam verificações de qualidade de dados para garantir que os endereços de entrega dos clientes sejam precisos, completos e confiáveis para cargas de trabalho de IA e atendimento downstream. Para mais informações, consulte Visão geral da criação de perfil de dados e Visão geral da qualidade de dados automática.

  • Organize e compartilhe produtos de dados. A equipe da plataforma de dados empacota ativos de vendas regionais e os metadados, pontuações de qualidade e linhagem relacionados em produtos de dados "Customer 360" selecionados, que são descobertos e consumidos pelas equipes de marketing e inventário. Para mais informações, consulte Visão geral dos produtos de dados.

Knowledge Catalog no ecossistema Google Cloud

Ao criar uma base de dados, é importante entender como o Knowledge Catalog se integra aos serviços relacionados doGoogle Cloud :

Serviço Função principal Quando usar
Knowledge Catalog Contexto agêntico e governança de dados Usado para catalogar metadados, gerenciar a qualidade de dados e fornecer embasamento semântico para agentes de IA.
BigQuery Data warehouse corporativo Use para armazenar, consultar e analisar conjuntos de dados massivos. O Knowledge Catalog enriquece os dados do BigQuery com contexto comercial.
Vertex AI Plataforma de IA e machine learning Usado para criar e implantar modelos de ML e agentes de IA. Os agentes usam as APIs do Knowledge Catalog para recuperar o contexto empresarial preciso.
Cloud Storage Armazenamento de dados não estruturados Usado para armazenar arquivos RAW. O Knowledge Catalog verifica buckets do Cloud Storage para extrair metadados e entidades pesquisáveis.

Principais conceitos

Para usar o Knowledge Catalog de forma eficaz, entenda os seguintes conceitos principais:

  • Gráfico de contexto. Um mapa dinâmico e unificado de como os dados se relacionam com sua empresa. Ele conecta esquemas técnicos a entidades comerciais e conhecimento não estruturado.

  • Exemplos de consultas. Padrões SQL pré-gerados e verificados que capturam lógica de negócios complexa. Com elas, humanos e agentes de IA podem consultar dados com precisão sem reinventar junções de tabelas complexas.

  • Protocolo de Contexto de Modelo (MCP). Um padrão aberto que permite que agentes de IA descubram e usem de forma adaptativa as ferramentas disponíveis. O Knowledge Catalog usa ferramentas do MCP para fornecer informações organizacionais certificadas diretamente aos agentes, oferecendo servidores MCP remotos e locais para atender aos requisitos de acessibilidade e segurança.

-- Example: An example query retrieved by an AI agent to ensure accurate revenue calculation
SELECT customer_id, SUM(transaction_amount) AS total_revenue
FROM `sales.processed_transactions`
WHERE transaction_status = 'COMPLETED'
GROUP BY customer_id;

Processamentos

O Knowledge Catalog ingere automaticamente metadados das seguintes fontes doGoogle Cloud . Para alguns serviços, como o AlloyDB para PostgreSQL e o Cloud SQL, é necessário ativar a integração do Knowledge Catalog antes que os metadados possam ser ingeridos:

  • Analytics e lakehouse

    • Conjuntos de dados, tabelas, visualizações, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
    • Trocas e listagens do BigQuery Sharing (antigo Analytics Hub)
    • Repositórios do Dataform e recursos de código
    • Serviços, bancos de dados e tabelas do Dataproc Metastore
    • Tabelas do catálogo REST do Iceberg (incluindo o catálogo de tempo de execução do Lakehouse Google Cloud IRC, o IRC do Databricks Unity, o IRC do Data Catalog do AWS Glue e o IRC do Snowflake Horizon)

  • IA e machine learning

    • Modelos, conjuntos de dados, grupos de recursos, visualizações de recursos e instâncias de loja on-line da Vertex AI
  • Business intelligence

    • Instâncias, painéis, elementos de painel, Looks, projetos, modelos, análises detalhadas e visualizações do Looker (Google Cloud Core) (prévia)
  • Bancos de dados

    • Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
    • Instâncias, bancos de dados, tabelas e visualizações do Spanner
  • Streaming e mensagens

    • Tópicos do Pub/Sub
  • Dados não estruturados

  • Bancos de dados operacionais

Para importar metadados de uma fonte terceirizada para o Knowledge Catalog, use um pipeline de conectividade gerenciada. Para mais informações, consulte a Visão geral da conectividade gerenciada.

Limitações

Ao planejar a implantação, considere as seguintes limitações:

  • Integrações aceitas. Embora o Knowledge Catalog seja compatível com os principais sistemas de terceiros, algumas extrações semânticas automatizadas podem ser limitadas a serviços Google Cloud integrados.

  • Limites de cota. As cotas padrão da API Google Cloud se aplicam às operações de recuperação de contexto e extração de metadados.

A seguir