Descripción general de Knowledge Catalog

Knowledge Catalog es un catálogo de datos potenciado por Gemini que proporciona contexto empresarial universal y administración para todo tu patrimonio de datos. Mediante la extracción automática de la semántica de datos estructurados y no estructurados, crea un gráfico de contexto dinámico que fundamenta los agentes de IA en la verdad empresarial y reduce las alucinaciones. Los equipos de datos y los desarrolladores de IA usan Knowledge Catalog para descubrir datos, aplicar políticas y recuperar contexto enriquecido para estadísticas y aplicaciones autónomas.

Dataplex Universal Catalog ahora es Knowledge Catalog

Para reflejar mejor la visión de unificar la administración de datos con las capacidades de IA generativa, Dataplex Universal Catalog ahora es Knowledge Catalog. Esta evolución del nombre del producto representa un cambio de un registro de metadatos pasivo y convencional a un gráfico de contexto activo y potenciado por IA.

¿Por qué Dataplex se convirtió en Knowledge Catalog?

A medida que las organizaciones aceleran su adopción de la IA generativa, los agentes de IA necesitan un contexto empresarial profundo para proporcionar respuestas precisas y fundamentadas. Knowledge Catalog cierra la brecha entre la administración de datos empresariales y los flujos de trabajo de los agentes de IA.

¿Cuál es la diferencia entre Dataplex y Knowledge Catalog?

Las actualizaciones de Knowledge Catalog reflejan nuevas capacidades centradas en la IA. A diferencia de los catálogos pasivos convencionales, Knowledge Catalog selecciona automáticamente metadatos, lógica empresarial y relaciones de datos en un gráfico de contexto unificado. Este gráfico proporciona la verdad empresarial confiable que los agentes de IA necesitan para ejecutar tareas complejas con precisión. Aprovecha funciones como la selección automática de contexto, las consultas de ejemplo verificadas y las integraciones locales y remotas del Protocolo de contexto del modelo (MCP).

¿Qué no cambia?

Tus implementaciones, APIs y configuraciones existentes de Dataplex siguen operativas. Las funciones principales, como el descubrimiento de datos, el linaje, la calidad de los datos y los glosarios empresariales, no cambian y son compatibles. Tus metadatos, aspectos y configuraciones existentes pasan a la nueva experiencia de Knowledge Catalog sin necesidad de migración manual, movimiento de datos ni tiempo de inactividad.

API y bibliotecas cliente

El cambio de marca a Knowledge Catalog no modifica los endpoints de API, los comandos gcloud dataplex ni las bibliotecas cliente existentes. Puedes seguir usando las APIs y las bibliotecas cliente de Knowledge Catalog para interactuar con Knowledge Catalog:

Cómo funciona Knowledge Catalog

Knowledge Catalog unifica la administración y el contexto a través de tres pilares principales:

  • Base de la administración. Knowledge Catalog recopila automáticamente metadatos técnicos de Google Cloud servicios como BigQuery, AlloyDB para PostgreSQL y Spanner, junto con sistemas de terceros. Establece una base de datos confiable a través de un glosario empresarial centralizado, verificaciones de calidad de los datos, detección de anomalías y administración basada en políticas.

  • Selección de contexto. Con Gemini, el servicio infiere la intención empresarial mediante el análisis de esquemas, registros de consultas y modelos semánticos en tus datos. Genera descripciones en lenguaje natural, descubre relaciones y propone patrones de SQL verificados en forma de consultas de ejemplo que capturan la lógica empresarial compleja.

  • Recuperación de contexto. Los agentes y las aplicaciones de IA pueden descubrir recursos de forma instantánea y recuperar contexto enriquecido a través de la búsqueda semántica y las herramientas que admiten el Protocolo de contexto del modelo (MCP). Esto permite que los agentes accedan a la verdad organizacional para tomar decisiones confiables.

En el siguiente diagrama, se ilustra la arquitectura de Knowledge Catalog y cómo unifica la administración de datos con los flujos de trabajo de IA generativa:

Arquitectura de Knowledge Catalog que muestra la curación de metadatos, la lógica empresarial y las relaciones de datos en un gráfico de contexto unificado para los agentes de IA. Arquitectura de Knowledge Catalog que muestra la curación de metadatos, la lógica empresarial y las relaciones de datos en un gráfico de contexto unificado para los agentes de IA.
Figura 1. Arquitectura de Knowledge Catalog (haz clic para ampliar)

Casos de uso habituales

Knowledge Catalog ayuda a los ingenieros de datos, los científicos de datos y los desarrolladores de IA a resolver desafíos en la administración de datos y el desarrollo de IA:

  • Enriquece los datos para la IA. Usa estadísticas de datos para datos no estructurados para extraer automáticamente metadatos y entidades de archivos no estructurados, como archivos PDF en Cloud Storage. Esto hace que los datos oscuros y el conocimiento organizacional sean accesibles para los modelos de IA.

  • Reduce las alucinaciones de la IA. Proporciona a los agentes de IA consultas de ejemplo verificadas previamente y barreras de protección semánticas, lo que les permite ejecutar recuperaciones de datos complejas con una precisión más determinista.

  • Acelera el descubrimiento de datos. Usa la búsqueda semántica y un gráfico de contexto centralizado para ubicar recursos de datos relevantes en fuentes dispares para estadísticas y flujos de trabajo de ciencia de datos.

  • Automatiza la creación de productos de datos. Infiere relaciones en todo tu patrimonio de datos para empaquetar recursos en productos de datos independientes con acuerdos de nivel de servicio (ANS) y restricciones de administración integrados.

Flujos de trabajo de muestra en Knowledge Catalog

Para ver cómo puedes compilar tu gráfico de contexto y administrar tu patrimonio de datos, considera cómo una empresa de venta minorista en línea podría usar las siguientes funciones de Knowledge Catalog:

  • Descubre y cataloga datos. El comercio minorista transfiere automáticamente datos de transacciones y recopila metadatos de Google Cloud servicios como BigQuery, Pub/Sub y Cloud Storage. El servicio también importa metadatos de bases de datos de inventario personalizadas para crear una vista unificada de todo el patrimonio de datos minoristas. Para obtener más información, consulta Descubre datos.

  • Busca recursos de datos. Un científico de datos encuentra los recursos de datos de clientes exactos que necesita con el motor de búsqueda de Knowledge Catalog con filtrado por facetas, búsqueda semántica en lenguaje natural y operadores lógicos. Para obtener más información, consulta Buscar recursos de datos assets.

  • Enriquece los datos con contexto empresarial. El equipo de administración de datos define la terminología de venta minorista (como "valor del ciclo de vida del cliente" o "SKU") con glosarios empresariales y usa estadísticas de datos potenciadas por IA para generar automáticamente descripciones para las tablas de productos nuevos. También aplican manualmente metadatos y etiquetas personalizados estructurados (aspectos) de manera uniforme en todos sus recursos. Para obtener más información, consulta Administra aspectos y enriquece metadatos y Administra un glosario empresarial.

  • Comprende las relaciones de datos con el linaje. El equipo de ingeniería realiza un seguimiento automático del linaje de datos para ver cómo se mueven, se transforman y se consumen los datos de pedidos en sus sistemas. Usan gráficos de linaje para solucionar problemas de canalizaciones de informes, realizar análisis de causa raíz en errores de finalización de compra y garantizar el cumplimiento. Para obtener más información, consulta Linaje de datos descripción general.

  • Genera perfiles de datos y mide la calidad. El comercio minorista usa la generación de perfiles de datos automatizada para identificar patrones y anomalías en sus tablas de precios de BigQuery. Definen y ejecutan verificaciones de calidad de los datos para garantizar que las direcciones de envío de los clientes sean precisas, completas y confiables para las cargas de trabajo de IA y cumplimiento posteriores. Para obtener más información, consulta Descripción general de la generación de perfiles de datos y Descripción general de la calidad de los datos automáticos.

  • Selecciona y comparte productos de datos. El equipo de la plataforma de datos empaqueta los recursos de ventas regionales y sus metadatos, niveles de calidad y linaje relacionados en productos de datos seleccionados de "Customer 360" que los equipos de marketing y de inventario descubren y consumen. Para obtener más información, consulta Productos de datos descripción general.

Knowledge Catalog en el Google Cloud ecosistema

Cuando compilas una base de datos, es importante comprender cómo se integra Knowledge Catalog con los servicios relacionados Google Cloud :

Servicio Rol principal Cuándo usar
Knowledge Catalog Contexto de agentes y administración de datos Úsalo para catalogar metadatos, administrar la calidad de los datos y proporcionar una base semántica para los agentes de IA.
BigQuery Almacenamiento de datos empresariales Úsalo para almacenar, consultar y analizar conjuntos de datos masivos. Knowledge Catalog enriquece los datos de BigQuery con contexto empresarial.
Plataforma de agentes Plataforma de IA y aprendizaje automático Úsalo para compilar e implementar modelos de AA y agentes de IA. Los agentes usan las APIs de Knowledge Catalog para recuperar el contexto empresarial preciso.
Cloud Storage Almacenamiento de datos no estructurados Úsalo para almacenar archivos sin procesar. Knowledge Catalog analiza los buckets de Cloud Storage para extraer entidades y metadatos que se pueden buscar.

Conceptos básicos

Para usar Knowledge Catalog de manera eficaz, comprende los siguientes conceptos clave:

  • Gráfico de contexto. Un mapa dinámico y unificado de cómo se relacionan los datos con tu empresa. Conecta esquemas técnicos con entidades empresariales y conocimiento no estructurado.

  • Consultas de ejemplo. Patrones de SQL verificados y generados previamente que capturan la lógica empresarial compleja. Estas consultas permiten que los humanos y los agentes de IA consulten datos con precisión sin reinventar uniones de tablas complejas.

  • Protocolo de contexto del modelo (MCP). Un estándar abierto que permite que los agentes de IA descubran y usen de forma adaptativa las herramientas disponibles. Knowledge Catalog usa herramientas de MCP para entregar la verdad organizacional certificada directamente a los agentes, y ofrece servidores de MCP remotos y locales para satisfacer los requisitos de accesibilidad y seguridad.

-- Example: An example query retrieved by an AI agent to ensure accurate revenue calculation
SELECT customer_id, SUM(transaction_amount) AS total_revenue
FROM `sales.processed_transactions`
WHERE transaction_status = 'COMPLETED'
GROUP BY customer_id;

Transferencias

Knowledge Catalog transfiere automáticamente metadatos de las siguientes Google Cloud fuentes. En el caso de algunos servicios, como AlloyDB para PostgreSQL y Cloud SQL, primero debes habilitar la integración de Knowledge Catalog para que se puedan transferir los metadatos:

  • Estadísticas y lakehouse

    • Tablas, vistas, modelos, rutinas, conexiones y conjuntos de datos vinculados, y conjuntos de datos de BigQuery
    • Intercambios y fichas de BigQuery sharing (anteriormente Analytics Hub)
    • Repositorios de Dataform y recursos de código
    • Servicios, base de datos y tablas de Dataproc Metastore
    • Tablas del catálogo de REST de Iceberg (incluidos Google Cloud el IRC del catálogo de tiempo de ejecución de Lakehouse , el IRC de Unity de Databricks, el IRC del Data Catalog de AWS Glue y el IRC de Horizon de Snowflake )

  • IA y aprendizaje automático

    • Modelos, conjuntos de datos, grupos de atributos, vistas de atributos y instancias de tiendas en línea de la plataforma de agentes
  • Inteligencia empresarial

    • Instancias, paneles, elementos de panel, Looks, proyectos de LookML, modelos, Explores y vistas de Looker (Google Cloud Core) (versión preliminar)
  • Bases de datos

    • Instancias, clústeres y tablas de Bigtable (incluidos los detalles de la familia de columnas)
    • Instancias, bases de datos, tablas y vistas de Spanner
  • Transmisión y mensajería

    • Temas de Pub/Sub
  • Datos no estructurados

  • Bases de datos operativas

Para importar metadatos de una fuente externa a Knowledge Catalog, puedes usar una canalización de conectividad administrada. Para obtener más información, consulta Managed connectivity overview.

Limitaciones

Cuando planifiques tu implementación, ten en cuenta las siguientes limitaciones:

  • Integraciones admitidas. Si bien Knowledge Catalog admite los principales sistemas de terceros, es posible que ciertas extracciones semánticas automatizadas se limiten a servicios integrados Google Cloud .

  • Límites de cuota. Se aplican cuotas estándar de la Google Cloud API a las operaciones de recuperación de contexto y extracción de metadatos.

¿Qué sigue?