En este documento, se describen la arquitectura y los conceptos clave de los productos de datos en Knowledge Catalog (antes Dataplex Universal Catalog).
Un producto de datos es una colección lógica y seleccionada de recursos de datos, empaquetada formalmente para garantizar que se pueda descubrir, que sea confiable y accesible. Las capacidades clave de un producto de datos incluyen lo siguiente:
- Organizar los recursos del catálogo en una unidad lógica que resuelva un problema empresarial específico y permita obtener estadísticas más rápido
- Distribuir con contexto que incluya una descripción, documentación y aspectos
- Establecer confianza con contratos que permitan a los productores de datos brindar garantías a los consumidores de datos
- Proporcionar un flujo de trabajo de autoservicio para que los consumidores de datos evalúen los productos de datos y obtengan acceso a los datos
Conceptos clave
En esta sección, se describen los conceptos clave y la terminología relacionados con los productos de datos.
Producto de datos
Es una agrupación lógica y seleccionada de recursos de datos, empaquetada formalmente para que se pueda descubrir, que sea confiable y accesible para resolver problemas empresariales específicos.
Recurso
Es un puntero a un recurso de datos físico, como un conjunto de datos, una tabla o una vista de BigQuery. Un producto de datos contiene uno o más recursos.
Grupo de acceso
Los grupos de acceso simplifican la administración de permisos para tu producto de datos. Asignan funciones fáciles de usar (como Reader o Analyst) a los Grupos de Google o las cuentas de servicio subyacentes. Esta abstracción permite a los propietarios de productos de datos administrar el acceso a nivel conceptual y ayuda a los consumidores de productos de datos a solicitar el nivel de acceso adecuado.
Los propietarios de productos de datos configuran grupos de acceso y les asignan permisos de recursos específicos.
Los consumidores de productos de datos usan estos grupos para solicitar acceso al producto de datos.
Propietario o productor de productos de datos
Es la persona o el equipo responsable de la creación y la administración de productos de datos. Esto incluye la administración de la calidad, el acceso y la documentación.
Consumidor de productos de datos
Es la persona, el equipo o el agente de IA que consume productos de datos para generar estadísticas.
Contrato
Es un acuerdo entre el propietario del producto de datos y sus consumidores. Este acuerdo establece expectativas claras mediante la definición de términos específicos sobre cómo se proporcionarán y usarán los datos, como su programa de actualización y los estándares de calidad.
Ejemplo de caso de uso
Considera a un científico de datos que analiza una empresa de comercio electrónico. Su objetivo es encontrar el valor promedio del pedido (AOV) por fuente de tráfico y ver si hay una correlación entre la edad del usuario y el tamaño del pedido. Para ello, debe combinar datos de varias tablas, como order_details, user_traffic y user_demographics.
En una configuración convencional, este proceso genera fricción. Para generar estadísticas, el científico de datos primero debe descubrir las tablas correctas dentro del vasto panorama de datos de la organización, luego comunicarse con cada propietario de datos, justificar su solicitud de acceso y esperar la aprobación.
Con los productos de datos, los propietarios de datos pueden optimizar esta experiencia empaquetando los recursos pertinentes en un solo producto llamado "Datos empresariales de comercio electrónico". Este paquete incluye lo siguiente:
Recursos
- Tablas de BigQuery
order_detailsyuser_traffic(que contienen datos históricos de pedidos y fuentes de tráfico) - Vista de BigQuery
user_demographics(que proporciona detalles del usuario con información de identificación personal excluida)
- Tablas de BigQuery
Grupos de acceso
- Grupos
ReaderyWriterpredefinidos para optimizar las solicitudes de acceso
- Grupos
Contrato
- Un contrato que define la frecuencia de actualización de datos (por ejemplo, semanalmente a las 8:00 a.m., hora del Pacífico)
Contexto
- Documentación con consultas de muestra y otros detalles
- Metadatos adicionales para describir la sensibilidad de los datos
Los científicos de datos ahora pueden descubrir este producto de datos como una sola unidad lógica. Esto les permite generar estadísticas con confianza para responder preguntas como "¿Cuál es el valor promedio del pedido para cada fuente de tráfico?", lo que, en última instancia, revela qué fuentes generan los clientes de mayor valor.
Flujo de usuarios del producto de datos
El ciclo de vida del producto de datos en Knowledge Catalog incluye dos recorridos clave del usuario: uno para el propietario (o productor) del producto de datos que crea y administra los datos, y otro para el consumidor del producto de datos que los descubre y usa.
Recorrido del propietario del producto de datos
Este recorrido se centra en empaquetar, proteger y administrar los productos de datos para garantizar que sean confiables y accesibles.
Crear: Define el producto de datos e incluye recursos. Esto implica las siguientes acciones:
- Configurar el nombre, el proyecto, la región y la descripción únicos
- Agregar recursos, como tablas, conjuntos de datos o vistas de BigQuery
- Configurar grupos de acceso (por ejemplo,
AnalystoReader) y asignarlos a los Grupos de Google o las cuentas de servicio subyacentes para simplificar la administración de permisos - Asignar los roles de IAM necesarios a estos grupos de acceso para los recursos específicos
- Agregar un contrato (un aspecto del sistema) para comunicar formalmente la cadencia, la frecuencia y el umbral de actualización de datos acordados
Para obtener más información, consulta Crea productos de datos.
Administrar: Actualiza el producto de datos y garantiza la capacidad de descubrimiento. Esto implica las siguientes acciones:
- Actualizar los detalles básicos, los recursos, los permisos y los aspectos complementarios (metadatos), y la documentación de texto enriquecido
- Otorgar acceso a los consumidores para que descubran los productos de datos y soliciten acceso a ellos
Para obtener más información, consulta Administra productos de datos.
Recorrido del consumidor de productos de datos
Este recorrido se centra en encontrar rápidamente datos confiables y obtener los permisos necesarios para usarlos.
Descubrir: Encuentra datos pertinentes y confiables para un problema empresarial específico. Esto implica las siguientes acciones:
- Usa la búsqueda de Knowledge Catalog con palabras clave o lenguaje natural para encontrar el producto de datos empaquetado.
- Revisa la descripción general, los recursos, el contrato y otros aspectos del producto de datos para determinar si es adecuado para su uso.
Para obtener más información, consulta Busca productos de datos.
Solicitar acceso: Pídele permiso al propietario del producto de datos para acceder a los datos.
Para obtener más información, consulta Solicita acceso a productos de datos.
Usar: Accede a los recursos subyacentes para generar estadísticas. Esto implica la siguiente acción:
Una vez que se apruebe, podrás acceder al producto y a sus recursos. Por ejemplo, si el recurso es una tabla de BigQuery, puedes navegar al estudio de BigQuery y consultar los datos directamente.
Para los flujos de trabajo de aplicaciones y desarrollo que operan fuera de Google Cloud, puedes exponer el producto de datos con una puerta de enlace de metadatos externa. Para obtener más información, consulta Usa el servidor MCP remoto de Knowledge Catalog.
Para obtener más información, consulta Consume productos de datos.
Recursos admitidos
Un producto de datos puede estar compuesto por uno o más recursos de datos. Se admiten los siguientes recursos de datos:
- Conjuntos de datos de BigQuery
- Tablas de BigQuery
- Vistas de BigQuery
- Rutinas de BigQuery
- Modelos de BigQuery
- Tablas externas de BigQuery
- Conjuntos de datos de Gemini Enterprise Agent Platform
- Modelos de Gemini Enterprise Agent Platform
Limitaciones
- Ubicación: Los productos de datos y sus recursos subyacentes deben residir en la misma Google Cloud ubicación.
- Modelos de BigQuery: El acceso a los modelos de BigQuery dentro de un producto de datos se administra a través de las condiciones de IAM aplicadas a la política de IAM del conjunto de datos superior. El uso compartido de modelos de BigQuery está sujeto a las limitaciones de las condiciones de IAM.
- Cuotas y límites: Para obtener una lista completa de los límites de frecuencia de la API y las cuotas de capacidad, consulta Cuotas para solicitudes de la API de productos de datos.
¿Qué sigue?
- Obtén información para crear un producto de datos.
- Obtén más información para administrar productos de datos.
- Obtén información para buscar productos de datos.
- Obtén información para solicitar acceso a productos de datos.
- Obtén información para usar los Controles del servicio de VPC con productos de datos.