Knowledge Catalog para agentes de IA

A medida que los ecosistemas de datos se vuelven cada vez más complejos, las aplicaciones de IA requieren más que solo acceso a los datos sin procesar. Necesitan contexto comercial. Knowledge Catalog representa una evolución de Dataplex, ya que cambia el enfoque hacia el fortalecimiento de la IA y los sistemas basados en agentes.

En el centro de esta plataforma, un mapa unificado vincula tus recursos de datos físicos con la semántica empresarial, las reglas de administración y las relaciones de uso. Si integras Knowledge Catalog en tus flujos de trabajo de IA, puedes lograr lo siguiente:

  • Fundamenta los agentes de IA para proporcionar metadatos confiables, actualizados y contextuales que guíen el razonamiento del agente.

  • Reducir las alucinaciones y garantizar que los modelos generativos basen sus respuestas en verdades empresariales establecidas

  • Proporciona un contexto unificado (una sola vista controlada de tu panorama de datos) a los agentes de IA.

Casos de uso

Knowledge Catalog cumple roles distintos en todo el ciclo de vida de los datos y la IA:

  • Desarrolladores de IA y creadores de agentes. Desarrolladores que crean bots o agentes personalizados (por ejemplo, con LangChain o el Kit de desarrollo de agentes [ADK]) que deben consultar y comprender los datos de la empresa.

    • Casos de uso: Búsqueda y recuperación de contexto en lenguaje natural para permitir que los agentes trabajen con datos empresariales; descubrimiento de datos con agentes
  • Analistas de datos. Usuarios que utilizan herramientas asistidas por IA, como Gemini en BigQuery o Looker, para encontrar datos y comprender su significado comercial.

    • Casos de uso: Consultas en lenguaje natural y exploración de datos conversacionales
  • Administradores de datos. Expertos en el dominio que supervisan el enriquecimiento de metadatos basado en IA y garantizan la calidad del contexto del catálogo.

    • Casos de uso: Revisar, seleccionar y promocionar metadatos y descripciones generados por IA

Accede al contexto de Knowledge Catalog con MCP

El Protocolo de contexto del modelo (MCP) es un puente estandarizado que permite que los agentes y las herramientas de IA se conecten sin problemas a fuentes de datos como Knowledge Catalog.

Para adaptarse a diferentes flujos de trabajo de implementación, Knowledge Catalog ofrece dos tipos de implementaciones de MCP. Comprender cuándo usar cada uno es clave para configurar tu entorno:

  • Servidor de MCP remoto: Cuando compilas aplicaciones nativas de la nube, implementas agentes en entornos sin servidores (como Cloud Run) o te integras con servicios administrados externos en los que deseas evitar la administración de la infraestructura local.

  • MCP Toolbox local: Durante el desarrollo de agentes locales, la creación rápida de prototipos o cuando necesitas una integración directa con IDE de escritorio locales, como VS Code o Cursor.

Servidor de MCP remoto

Es un extremo alojado en Google que permite el acceso directo a las herramientas de Knowledge Catalog para aplicaciones y servicios de IA (por ejemplo, agentes que se ejecutan en Cloud Run o servicios externos como Claude).

  • Extremo: https://dataplex.googleapis.com/mcp
  • Beneficios: No es necesario ejecutar un servidor de MCP local, lo que lo hace adecuado para entornos sin servidores.
  • Referencia: Usa un servidor de MCP remoto

Caja de herramientas de MCP local

Es una herramienta de línea de comandos que actúa como proxy local entre tu IDE (por ejemplo, VS Code o Cursor) o herramientas locales y el Catálogo de conocimiento.

  • Instalación: Objeto binario descargable.
  • Configuración: Por lo general, implica un archivo de configuración o .mcp.json en la configuración de tu proyecto o IDE.
  • Beneficios: Ideal para entornos de desarrollo seguros a nivel local y la integración con varios IDEs.
  • Referencia: Usa un servidor de MCP local

Enriquece el contexto de Knowledge Catalog

Para maximizar el valor de Knowledge Catalog para la IA, el gráfico subyacente debe ser rico en contexto empresarial. Puedes lograr esto a través de funciones listas para usar o un enriquecimiento agentivo personalizado.

Enriquecimiento integrado con estadísticas de datos

Las estadísticas de datos (con la tecnología de Gemini en BigQuery) enriquecen automáticamente tu catálogo, lo que reduce el problema de "inicio en frío" para las nuevas plataformas de datos. Cuando está habilitada, genera automáticamente lo siguiente:

  • Descripciones a nivel del conjunto de datos y de la columna
  • Gráficos de relaciones entre tablas
  • Consultas de ejemplo basadas en patrones de uso históricos

Esto proporciona una comprensión semántica inmediata a los agentes posteriores sin necesidad de una administración manual de los datos.

Por ejemplo, para una tabla llamada telco_churn, las estadísticas de datos pueden generar automáticamente descripciones para campos como Tenure y MonthlyCharges, inferir relaciones con las tablas de clientes y publicar en el catálogo una consulta de ejemplo, como la búsqueda de tasas de abandono por segmento.

Enriquecimiento de contexto personalizado con agentes

En el caso de las organizaciones con bases de conocimiento especializadas, puedes crear agentes de enriquecimiento personalizados para transferir metadatos de fuentes específicas, como wikis internos, repositorios de código o sistemas propietarios.

  • APIs de Knowledge Catalog (operaciones CRUD): Se usan para agregar o actualizar metadatos en el catálogo.

    • Por ejemplo, llama al método de la API UpdateEntry para adjuntar de forma programática un aspecto de resumen a una tabla con la documentación extraída de un sistema interno.
  • Herramientas como el ADK: Se usan para crear tus agentes de enriquecimiento.

    • Por ejemplo, compila un agente del ADK basado en Java que use herramientas internas para extraer páginas wiki técnicas, use un LLM para analizarlas y convertirlas en términos de glosario, y sincronice los términos con Knowledge Catalog.
  • Operaciones de importación y exportación: Se usan para actualizaciones masivas de metadatos con revisión.

    • Por ejemplo, puedes exportar un glosario empresarial generado por IA a un archivo, hacer que los administradores de datos revisen y perfeccionen las definiciones de forma colaborativa, y, luego, importar el archivo finalizado al catálogo.

¿Qué sigue?