À medida que os ecossistemas de dados se tornam cada vez mais complexos, os aplicativos de IA exigem mais do que apenas acesso aos dados brutos. Eles precisam de contexto comercial. O Knowledge Catalog representa uma evolução do Dataplex, mudando o foco para capacitar a IA e os sistemas de agentes.
No centro dessa plataforma, um mapa unificado vincula seus recursos de dados físicos à semântica de negócios, regras de governança e relações de uso. Ao integrar o Knowledge Catalog aos fluxos de trabalho de IA, você pode:
Basear agentes de IA para fornecer metadados confiáveis, atualizados e contextuais para orientar o raciocínio do agente.
Reduzir alucinações e garantir que os modelos generativos baseiem as respostas em verdades empresariais estabelecidas.
Fornecer um contexto unificado (uma visualização única e controlada do cenário de dados) aos agentes de IA.
Casos de uso
O Knowledge Catalog tem papéis distintos no ciclo de vida de dados e IA:
Desenvolvedores de IA e criadores de agentes. Desenvolvedores que criam bots ou agentes personalizados (por exemplo, usando o LangChain ou o Kit de Desenvolvimento de Agente (ADK)) que precisam consultar e entender os dados empresariais.
- Casos de uso:pesquisa e recuperação de contexto em linguagem natural para permitir que os agentes trabalhem com dados empresariais; descoberta de dados de agentes.
Analistas de dados. Usuários que usam ferramentas com tecnologia de IA, como o Gemini no BigQuery ou no Looker, para encontrar dados e entender o significado comercial deles.
- Casos de uso:consulta em linguagem natural e exploração de dados conversacionais.
Administradores de dados. Especialistas no domínio que supervisionam o enriquecimento de metadados com tecnologia de IA e garantem a qualidade do contexto do catálogo.
- Casos de uso:revisão, curadoria e promoção de metadados e descrições gerados por IA.
Acessar o contexto do Knowledge Catalog com o MCP
O Protocolo de Contexto de Modelo (MCP) é uma ponte padronizada que permite que agentes e ferramentas de IA se conectem perfeitamente a fontes de dados, como o Knowledge Catalog.
Para acomodar diferentes fluxos de trabalho de implantação, o Knowledge Catalog oferece dois tipos de implementações do MCP. Entender quando usar cada um é fundamental para configurar o ambiente:
Servidor MCP remoto:ao criar aplicativos nativos da nuvem, implantar agentes em ambientes sem servidor (como o Cloud Run) ou integrar com serviços gerenciados externos em que você quer evitar o gerenciamento da infraestrutura local.
MCP Toolbox local:durante o desenvolvimento de agentes locais, a prototipagem rápida ou quando você precisa de integração direta com ambientes de desenvolvimento integrado locais para computadores, como o VS Code ou o Cursor.
Servidor MCP remoto
Um endpoint hospedado pelo Google que permite acesso direto às ferramentas do Knowledge Catalog para aplicativos e serviços de IA (por exemplo, agentes em execução no Cloud Run ou serviços externos como o Claude).
- Endpoint:
https://dataplex.googleapis.com/mcp - Benefícios:não é necessário executar um servidor MCP local; adequado para ambientes sem servidor.
- Referência: Usar um servidor MCP remoto
MCP Toolbox local
Uma ferramenta de linha de comando que atua como um proxy local entre o ambiente de desenvolvimento integrado (por exemplo, VS Code, Cursor) ou ferramentas locais e o Knowledge Catalog.
- Instalação:binário para download.
- Configuração:geralmente envolve um arquivo
.mcp.jsonou de configurações no projeto ou na configuração do ambiente de desenvolvimento integrado. - Benefícios:ideal para ambientes de desenvolvimento seguros localmente e integração com vários ambientes de desenvolvimento integrado.
- Referência: Usar um servidor MCP local
Enriquecer o contexto do Knowledge Catalog
Para maximizar o valor do Knowledge Catalog para IA, o gráfico subjacente precisa ser rico em contexto comercial. É possível fazer isso usando recursos prontos para uso ou enriquecimento de agentes personalizados.
Enriquecimento pronto para uso com insights de dados
Os insights de dados (com tecnologia do Gemini no BigQuery) enriquecem automaticamente o catálogo, reduzindo o problema de "inicialização a frio" para novas plataformas de dados. Quando ativado, ele gera automaticamente o seguinte:
- Descrições de conjuntos de dados e colunas.
- Gráficos de relacionamento entre tabelas.
- Consultas de exemplo com base em padrões de uso históricos.
Isso fornece compreensão semântica imediata aos agentes downstream sem exigir a gestão manual de dados.
Por exemplo, para uma tabela chamada telco_churn, os insights de dados podem gerar automaticamente descrições para campos como Tenure e MonthlyCharges, inferir relações com tabelas de clientes e publicar uma consulta de exemplo, como encontrar taxas de desistência de usuários por segmento no catálogo.
Enriquecimento de contexto personalizado com agentes
Para organizações com bases de conhecimento especializadas, é possível criar agentes de enriquecimento personalizados para ingerir metadados de fontes personalizadas, como wikis internos, repositórios de código ou sistemas proprietários.
APIs do Knowledge Catalog (operações CRUD) : use para adicionar ou atualizar metadados no catálogo.
- Por exemplo, chame o método da API
UpdateEntrypara anexar programaticamente um aspecto de visão geral a uma tabela usando a documentação extraída de um sistema interno.
- Por exemplo, chame o método da API
Ferramentas como o ADK:use para criar seus agentes de enriquecimento.
- Por exemplo, crie um agente ADK baseado em Java que use ferramentas internas para extrair páginas técnicas da wiki, use um LLM para analisá-las em termos de glossário e sincronize os termos com o Knowledge Catalog.
Operações de exportação e importação:use para atualizações de metadados em massa com revisão.
- Por exemplo, exporte um glossário empresarial gerado com IA para um arquivo, peça aos administradores de dados para revisar e refinar as definições de forma colaborativa e importe o arquivo finalizado de volta para o catálogo.