A medida que los ecosistemas de datos se vuelven cada vez más complejos, las aplicaciones de IA requieren más que solo acceso a los datos sin procesar. Necesitan contexto empresarial. Knowledge Catalog representa una evolución de Dataplex, que cambia el enfoque hacia el fortalecimiento de la IA y los sistemas de agentes.
En el centro de esta plataforma, un mapa unificado vincula tus recursos de datos físicos con la semántica empresarial, las reglas de administración y las relaciones de uso. Si integras Knowledge Catalog en tus flujos de trabajo de IA, puedes lograr lo siguiente:
Fundamentar los agentes de IA para proporcionar metadatos confiables, actualizados y contextuales que guíen el razonamiento de los agentes
Reducir las alucinaciones y garantizar que los modelos generativos basen sus respuestas en verdades empresariales establecidas
Proporcionar un contexto unificado (una vista única y administrada de tu panorama de datos) a los agentes de IA
Casos de uso
Knowledge Catalog cumple funciones distintas en todo el ciclo de vida de los datos y la IA:
Desarrolladores de IA y creadores de agentes. Desarrolladores que crean bots o agentes personalizados (por ejemplo, con LangChain o el Kit de desarrollo de agentes [ADK]) que deben consultar y comprender los datos empresariales
- Casos de uso: Búsqueda y recuperación de contexto en lenguaje natural para permitir que los agentes trabajen con datos empresariales; descubrimiento de datos de agentes
Analistas de datos. Usuarios que usan herramientas asistidas por IA, como Gemini en BigQuery o Looker, para encontrar datos y comprender su significado empresarial
- Casos de uso: Consultas en lenguaje natural y exploración de datos conversacionales
Administradores de datos. Expertos en el dominio que supervisan el enriquecimiento de metadatos basado en IA y garantizan la calidad del contexto del catálogo
- Casos de uso: Revisión, selección y promoción de metadatos y descripciones generados por IA
Accede al contexto de Knowledge Catalog con MCP
El Protocolo de contexto del modelo (MCP) es un puente estandarizado que permite que los agentes y las herramientas de IA se conecten sin problemas a fuentes de datos como Knowledge Catalog.
Para adaptarse a diferentes flujos de trabajo de implementación, Knowledge Catalog ofrece dos tipos de implementaciones de MCP. Comprender cuándo usar cada uno es clave para configurar tu entorno:
Servidor de MCP remoto: Cuando compilas aplicaciones nativas de la nube, implementas agentes en entornos sin servidores (como Cloud Run) o te integras con servicios administrados externos en los que deseas evitar la administración de la infraestructura local
Caja de herramientas de MCP local: Durante el desarrollo de agentes locales, la creación rápida de prototipos o cuando necesitas una integración directa con IDE de escritorio locales, como VS Code o Cursor
Servidor de MCP remoto
Un extremo alojado en Google que permite el acceso directo a las herramientas de Knowledge Catalog para aplicaciones y servicios de IA (por ejemplo, agentes que se ejecutan en Cloud Run o servicios externos como Claude)
- Extremo:
https://dataplex.googleapis.com/mcp - Beneficios: No es necesario ejecutar un servidor de MCP local; adecuado para entornos sin servidores
- Referencia: Usa un servidor de MCP remoto
Caja de herramientas de MCP local
Una herramienta de línea de comandos que actúa como un proxy local entre tu IDE (por ejemplo, VS Code, Cursor) o herramientas locales y Knowledge Catalog
- Instalación: Objeto binario descargable
- Configuración: Por lo general, implica un archivo
.mcp.jsono de configuración en tu proyecto o configuración de IDE - Beneficios: Ideal para entornos de desarrollo seguros a nivel local y la integración con varios IDE
- Referencia: Usa un servidor de MCP local
Enriquece el contexto de Knowledge Catalog
Para maximizar el valor de Knowledge Catalog para la IA, el grafo subyacente debe ser rico en contexto empresarial. Puedes lograr esto a través de funciones listas para usar o enriquecimiento de agentes personalizados.
Enriquecimiento listo para usar con estadísticas de datos
Las estadísticas de datos (con tecnología de Gemini en BigQuery) enriquecen automáticamente tu catálogo, lo que reduce el problema de "inicio en frío" para las plataformas de datos nuevas. Cuando está habilitado, genera automáticamente lo siguiente:
- Descripciones a nivel de conjunto de datos y columna
- Grafos de relaciones entre tablas
- Consultas de ejemplo basadas en patrones de uso históricos
Esto proporciona una comprensión semántica inmediata a los agentes descendentes sin necesidad de administración de datos manual.
Por ejemplo, para una tabla llamada telco_churn, las estadísticas de datos pueden generar automáticamente descripciones para campos como Tenure y MonthlyCharges, inferir relaciones con tablas de clientes y publicar una consulta de ejemplo, como encontrar tasas de abandono por segmento en el catálogo.
Enriquecimiento de contexto personalizado con agentes
Para las organizaciones con bases de conocimiento especializadas, puedes compilar agentes de enriquecimiento personalizados para transferir metadatos de fuentes personalizadas, como wikis internos, repositorios de código o sistemas propietarios.
APIs de Knowledge Catalog (operaciones CRUD): Úsalas para agregar o actualizar metadatos en el catálogo.
- Por ejemplo, llama al método de la API de
UpdateEntrypara adjuntar de forma programática un aspecto general a una tabla con la documentación extraída de un sistema interno.
- Por ejemplo, llama al método de la API de
Herramientas como el ADK: Úsalas para compilar tus agentes de enriquecimiento.
- Por ejemplo, compila un agente de ADK basado en Java que use herramientas internas para extraer páginas wiki técnicas, use un LLM para analizarlas en términos de glosario y sincronice los términos con Knowledge Catalog.
Operaciones de exportación e importación: Úsalas para actualizaciones masivas de metadatos con revisión.
- Por ejemplo, exporta un glosario empresarial generado por IA a un archivo, haz que los administradores de datos revisen y refinen las definiciones de forma colaborativa y vuelve a importar el archivo finalizado al catálogo.