O Knowledge Catalog é um catálogo de dados com tecnologia do Gemini que oferece contexto e governança universais para toda a sua propriedade de dados. Ao extrair automaticamente a semântica de dados estruturados e não estruturados, ele cria um gráfico de contexto dinâmico que embasa os agentes de IA na verdade empresarial e reduz as alucinações. As equipes de dados e os desenvolvedores de IA usam o Knowledge Catalog para descobrir dados, aplicar políticas e recuperar contexto avançado para análises e aplicativos autônomos. Para um tutorial detalhado do Knowledge Catalog, assista ao vídeo incorporado.
O Dataplex Universal Catalog agora é o Knowledge Catalog
Para refletir melhor a visão de unificar a governança de dados com recursos de IA generativa, o Dataplex Universal Catalog agora é o Knowledge Catalog. Essa evolução do nome do produto representa uma mudança de um registro de metadados convencional e passivo para um gráfico de contexto ativo com tecnologia de IA.
Por que o Dataplex se tornou o Knowledge Catalog?
À medida que as organizações aceleram a adoção da IA generativa, os agentes de IA precisam de um contexto de negócios detalhado para fornecer respostas precisas e embasadas. O Knowledge Catalog preenche a lacuna entre a governança de dados corporativos e os fluxos de trabalho de agentes de IA.
Qual é a diferença entre o Dataplex e o Knowledge Catalog?
As atualizações do Knowledge Catalog refletem novos recursos centrados em IA. Ao contrário dos catálogos passivos convencionais, o Knowledge Catalog organiza automaticamente metadados, lógica de negócios e relacionamentos de dados em um grafo de contexto unificado. Esse gráfico fornece a fonte de verdade empresarial confiável que os agentes de IA precisam para executar tarefas complexas com precisão. Ele usa recursos como curadoria automática de contexto, consultas de exemplo verificadas e integrações locais e remotas do Protocolo de Contexto de Modelo (MCP).
O que não vai mudar
Suas implantações, APIs e configurações atuais do Dataplex permanecem operacionais. Os recursos principais, como descoberta, linhagem, qualidade de dados e glossários de negócios, não mudaram e são compatíveis. Seus metadados, aspectos e configurações atuais são transferidos para a nova experiência do Knowledge Catalog sem migração manual, movimentação de dados ou tempo de inatividade.
APIs e bibliotecas de cliente
A mudança de marca para o Knowledge Catalog não altera os endpoints de API, os comandos gcloud dataplex ou as bibliotecas de cliente atuais. Você pode continuar usando as APIs e bibliotecas de cliente do Knowledge Catalog para interagir com ele:
API REST. Consulte a documentação da API REST do Knowledge Catalog.
API RPC. Consulte a documentação da API RPC do Knowledge Catalog.
Bibliotecas de cliente. Comece a usar o Knowledge Catalog no idioma de sua preferência com as bibliotecas de cliente do Knowledge Catalog.
Comandos gcloud. Gerencie recursos do Knowledge Catalog usando o grupo de comandos
gcloud dataplex. Consulte a referência de comandos do Dataplex para gcloud.
Como o Knowledge Catalog funciona
O Knowledge Catalog unifica a governança e o contexto com três pilares principais:
Base de governança. O Knowledge Catalog coleta automaticamente metadados técnicos de serviços do Google Cloud , como BigQuery, AlloyDB para PostgreSQL e Spanner, além de sistemas de terceiros. Ele estabelece uma base de dados confiável com um glossário empresarial centralizado, verificações de qualidade de dados, detecção de anomalias e governança baseada em políticas.
Curadoria de contexto. Usando o Gemini, o serviço infere a intenção comercial analisando esquemas, registros de consultas e modelos semânticos em todos os seus dados. Ele gera descrições em linguagem natural, descobre relacionamentos e propõe padrões SQL verificados na forma de exemplos de consultas que capturam lógica de negócios complexa.
Recuperação de contexto. Os agentes e aplicativos de IA podem descobrir recursos e recuperar contexto enriquecido instantaneamente com a pesquisa semântica e ferramentas que oferecem suporte ao Protocolo de Contexto de Modelo (MCP). Assim, os agentes podem acessar a verdade organizacional para tomar decisões confiáveis.
O diagrama a seguir ilustra a arquitetura do Knowledge Catalog e como ele unifica a governança de dados com fluxos de trabalho de IA generativa:
Casos de uso comuns
O Knowledge Catalog ajuda engenheiros de dados, cientistas de dados e desenvolvedores de IA a resolver desafios no gerenciamento de dados e no desenvolvimento de IA:
Enriqueça os dados para a IA. Use insights de dados para dados não estruturados e extraia automaticamente metadados e entidades de arquivos não estruturados, como PDFs no Cloud Storage. Isso torna os dados obscuros e o conhecimento organizacional acessíveis aos modelos de IA.
Reduzir as alucinações de IA. Forneça aos agentes de IA exemplos de consultas pré-verificadas e barreiras de proteção semânticas, permitindo que eles executem recuperações de dados complexas com mais precisão determinística.
Acelere a descoberta de dados. Use a pesquisa semântica e um gráfico de contexto centralizado para localizar recursos de dados relevantes em fontes diferentes para análises e fluxos de trabalho de ciência de dados.
Automatize a criação de produtos de dados. Infera relações em todo o patrimônio de dados para agrupar recursos em produtos de dados independentes com contratos de nível de serviço (SLAs) e restrições de governança integrados.
Exemplos de fluxos de trabalho no Knowledge Catalog
Para saber como criar seu gráfico de contexto e gerenciar seu patrimônio de dados, considere como uma empresa de varejo on-line pode usar os seguintes recursos do Knowledge Catalog:
Descobrir e catalogar dados. A loja ingere automaticamente dados de transações e coleta metadados de serviços do Google Cloud , como BigQuery, Pub/Sub e Cloud Storage. O serviço também importa metadados de bancos de dados de inventário personalizados para criar uma visualização unificada de todo o patrimônio de dados de varejo. Para mais informações, consulte Descobrir dados.
Pesquise recursos de dados. Um cientista de dados encontra os recursos de dados exatos de clientes de que precisa usando o mecanismo de pesquisa do Knowledge Catalog com filtragem facetada, pesquisa semântica de linguagem natural e operadores lógicos. Para mais informações, consulte Pesquisar recursos de dados.
Enriqueça os dados com contexto comercial. A equipe de governança de dados define a terminologia do varejo (como "Valor da vida útil" ou "SKU") usando glossários comerciais e insights de dados com tecnologia de IA para gerar automaticamente descrições de novas tabelas de produtos. Eles também aplicam manualmente metadados e tags (aspectos) personalizados estruturados de maneira uniforme em todos os recursos. Para mais informações, consulte Gerenciar aspectos e enriquecer metadados e Gerenciar um glossário empresarial.
Entenda as relações de dados com a linhagem. A equipe de engenharia rastreia automaticamente a linhagem de dados para ver como os dados de pedidos se movem, são transformados e consumidos nos sistemas. Eles usam gráficos de linhagem para resolver problemas em pipelines de relatórios, realizar análises de causa raiz em erros de finalização de compra e garantir a conformidade. Para mais informações, consulte Visão geral da linhagem de dados.
Criar perfil de dados e medir a qualidade. O varejista usa a criação de perfis de dados automatizada para identificar padrões e anomalias nas tabelas de preços do BigQuery. Eles definem e executam verificações de qualidade de dados para garantir que os endereços de entrega dos clientes sejam precisos, completos e confiáveis para cargas de trabalho de IA e atendimento downstream. Para mais informações, consulte Visão geral da criação de perfil de dados e Visão geral da qualidade de dados automática.
Organize e compartilhe produtos de dados. A equipe da plataforma de dados empacota ativos de vendas regionais e os metadados, pontuações de qualidade e linhagem relacionados em produtos de dados "Customer 360" selecionados, que são descobertos e consumidos pelas equipes de marketing e inventário. Para mais informações, consulte Visão geral dos produtos de dados.
Knowledge Catalog no ecossistema Google Cloud
Ao criar uma base de dados, é importante entender como o Knowledge Catalog se integra aos serviços relacionados doGoogle Cloud :
| Serviço | Função principal | Quando usar |
|---|---|---|
| Knowledge Catalog | Contexto agêntico e governança de dados | Usado para catalogar metadados, gerenciar a qualidade de dados e fornecer embasamento semântico para agentes de IA. |
| BigQuery | Data warehouse empresarial | Use para armazenar, consultar e analisar conjuntos de dados massivos. O Knowledge Catalog enriquece os dados do BigQuery com contexto comercial. |
| Vertex AI | Plataforma de IA e machine learning | Usado para criar e implantar modelos de ML e agentes de IA. Os agentes usam as APIs do Knowledge Catalog para recuperar o contexto empresarial preciso. |
| Cloud Storage | Armazenamento de dados não estruturados | Usado para armazenar arquivos brutos. O Knowledge Catalog verifica buckets do Cloud Storage para extrair metadados e entidades pesquisáveis. |
Principais conceitos
Para usar o Knowledge Catalog de forma eficaz, entenda os seguintes conceitos principais:
Gráfico de contexto. Um mapa dinâmico e unificado de como os dados se relacionam com sua empresa. Ele conecta esquemas técnicos a entidades comerciais e conhecimento não estruturado.
Exemplos de consultas. Padrões SQL pré-gerados e verificados que capturam lógica de negócios complexa. Com elas, humanos e agentes de IA podem consultar dados com precisão sem reinventar junções de tabelas complexas.
Protocolo de Contexto de Modelo (MCP). Um padrão aberto que permite que agentes de IA descubram e usem de forma adaptativa as ferramentas disponíveis. O Knowledge Catalog usa ferramentas do MCP para fornecer a verdade organizacional certificada diretamente aos agentes, oferecendo servidores MCP remotos e locais para atender aos requisitos de acessibilidade e segurança.
-- Example: An example query retrieved by an AI agent to ensure accurate revenue calculation
SELECT customer_id, SUM(transaction_amount) AS total_revenue
FROM `sales.processed_transactions`
WHERE transaction_status = 'COMPLETED'
GROUP BY customer_id;
Processamentos
O Knowledge Catalog ingere automaticamente metadados das seguintes fontes do Google Cloud . Para alguns serviços, como o AlloyDB para PostgreSQL e o Cloud SQL, é necessário ativar a integração do Knowledge Catalog antes que os metadados possam ser ingeridos:
Analytics e lakehouse
- Conjuntos de dados, tabelas, visualizações, modelos, rotinas, conexões e conjuntos de dados vinculados do BigQuery
- Trocas e listagens do BigQuery Sharing (antigo Analytics Hub)
- Repositórios do Dataform e recursos de código
- Serviços, bancos de dados e tabelas do Dataproc Metastore
Tabelas do catálogo REST do Iceberg (incluindo o catálogo de ambientes de execução do Lakehouse, o IRC do Databricks Unity, o IRC do catálogo de dados do AWS Glue e o IRC do Snowflake Horizon) Google Cloud
IA e machine learning
- Modelos, conjuntos de dados, grupos de recursos, visualizações de recursos e instâncias de loja on-line da Vertex AI
Business intelligence
- Instâncias, painéis, elementos de painel, Looks, projetos, modelos, análises detalhadas e visualizações do Looker (Google Cloud Core) (prévia)
Bancos de dados
- Instâncias, clusters e tabelas do Bigtable (incluindo detalhes do grupo de colunas)
- Instâncias, bancos de dados, tabelas e visualizações do Spanner
Streaming e mensagens
- Tópicos do Pub/Sub
Dados não estruturados
Bancos de dados operacionais
- Clusters, instâncias, bancos de dados, esquemas, tabelas e visualizações do AlloyDB para PostgreSQL (pré-lançamento). O Knowledge Catalog recupera metadados somente das instâncias principais do AlloyDB para PostgreSQL e não de réplicas de leitura. Para mais informações, consulte Gerenciar recursos do AlloyDB para PostgreSQL usando o Knowledge Catalog.
- Instâncias, bancos de dados, esquemas, tabelas e visualizações do Cloud SQL. O Knowledge Catalog recupera metadados somente das instâncias principais do Cloud SQL e não de réplicas de leitura. Para mais informações, consulte Gerenciar recursos do Cloud SQL usando o Knowledge Catalog.
Para importar metadados de uma fonte terceirizada para o Knowledge Catalog, use os conectores do Knowledge Catalog ou um pipeline de conectividade gerenciada. Para mais informações, consulte Sobre os conectores do Knowledge Catalog e Visão geral da conectividade gerenciada.
Limitações
Ao planejar a implantação, considere as seguintes limitações:
Integrações aceitas. Embora o Knowledge Catalog seja compatível com os principais sistemas de terceiros, algumas extrações semânticas automatizadas podem ser limitadas aos serviços integrados Google Cloud .
Limites de cota. As cotas padrão da API Google Cloud se aplicam às operações de recuperação de contexto e extração de metadados.
A seguir
Saiba mais sobre o gerenciamento de metadados no Knowledge Catalog.
Saiba como pesquisar recursos de dados.
Saiba mais sobre a linhagem de dados.
Saiba mais sobre a criação do perfil dos dados.
Saiba mais sobre a qualidade de dados automática.