En este documento se describen la arquitectura y los conceptos clave de los productos de datos en Dataplex Universal Catalog.
Un producto de datos es una colección lógica y seleccionada de recursos de datos que se empaqueta formalmente para que se pueda descubrir, sea fiable y se pueda acceder a él. Estas son las principales funciones de un producto de datos:
- Organiza los recursos del catálogo en una unidad lógica que resuelva un problema empresarial específico y permita obtener información valiosa más rápido.
- Distribuir con contexto que incluya una descripción, documentación y aspectos.
- Genera confianza con contratos que permitan a los productores de datos ofrecer garantías a los consumidores de datos.
- Ofrecer un flujo de trabajo de autoservicio para que los consumidores de datos evalúen los productos de datos y accedan a ellos.
Conceptos clave
En esta sección se describen los conceptos y la terminología clave relacionados con los productos de datos.
Producto de datos
Una agrupación lógica y seleccionada de recursos de datos, empaquetada formalmente para que se pueda descubrir, confiar en ella y acceder a ella para resolver problemas empresariales específicos.
Recurso
Un puntero a un recurso de datos físico, como un conjunto de datos, una tabla o una vista de BigQuery. Un producto de datos contiene uno o varios recursos.
Grupo de acceso
Los grupos de Google los configuran los propietarios de los productos de datos y los usan los consumidores de productos de datos para solicitar acceso. Los permisos de los recursos se asignan a estos grupos de acceso.
Los grupos de acceso simplifican la gestión de permisos de tu producto de datos. Actúan como alias fáciles de usar (como Reader o Analyst) para los grupos de gestión de identidades y accesos subyacentes. De esta forma, los propietarios de productos de datos pueden asignar permisos de alto nivel y los consumidores pueden solicitar el nivel de acceso correcto.
Propietario o productor de datos
La persona o el equipo responsables de la creación y la gestión de los productos de datos. Esto incluye la gestión de la calidad, el acceso y la documentación.
Consumidor de productos de datos
La persona, el equipo o el agente de IA que usa los productos de datos para generar estadísticas.
Contrato
Un acuerdo entre el propietario del producto de datos y sus consumidores. Este acuerdo establece expectativas claras al definir términos específicos sobre cómo se proporcionarán y usarán los datos, como su programación de actualización y sus estándares de calidad.
Caso práctico de ejemplo
Imagina que un científico de datos analiza una empresa de comercio electrónico. Su objetivo es encontrar el valor medio de pedido (VMP) por fuente de tráfico y ver si hay una correlación entre la edad del usuario y el tamaño del pedido. Para ello, deben combinar datos de varias tablas, como order_details, user_traffic y user_demographic.
En una configuración convencional, este proceso genera fricción. Para generar estadísticas, el científico de datos debe descubrir primero las tablas correctas en el vasto panorama de datos de la organización, ponerse en contacto con cada propietario de los datos, justificar su solicitud de acceso y esperar la aprobación.
Con los productos de datos, los propietarios de los datos pueden simplificar esta experiencia agrupando los recursos relevantes en un solo producto llamado "Datos de empresa de comercio electrónico". Este paquete incluye lo siguiente:
Recursos
- Tablas de BigQuery
order_detailsyuser_traffic(que contienen datos históricos de pedidos y fuentes de tráfico) - Vista de BigQuery
user_demographics(con detalles de usuario sin información personal identificable)
- Tablas de BigQuery
Grupos de acceso
- Grupos
ReaderyWriterpredefinidos para agilizar las solicitudes de acceso
- Grupos
Contrato
- Un contrato que defina la frecuencia de actualización de los datos (por ejemplo, semanalmente a las 8:00 [PST])
Contexto
- Documentación con consultas de ejemplo y otros detalles
- Metadatos adicionales para describir la sensibilidad de los datos
Ahora, los científicos de datos pueden descubrir este producto de datos como una sola unidad lógica. De esta forma, pueden generar estadísticas de forma fiable para responder a preguntas como "¿Cuál es el valor medio de los pedidos de cada fuente de tráfico?", lo que les permite saber qué fuentes generan los clientes de mayor valor.
Flujo de usuarios de productos de datos
El ciclo de vida de los productos de datos en Dataplex Universal Catalog incluye dos recorridos de usuario clave: uno para el propietario (o productor) del producto de datos, que crea y gestiona los datos, y otro para el consumidor del producto de datos, que los descubre y los usa.
Recorrido del propietario del producto de datos
En este proceso, nos centraremos en empaquetar, proteger y gestionar los productos de datos para asegurarnos de que sean fiables y accesibles.
Crear: define el producto de datos e incluye recursos. Para ello, debes realizar las siguientes acciones:
- Configura el nombre único, el proyecto, la región y la descripción.
- Añadir recursos, como tablas, conjuntos de datos o vistas de BigQuery.
- Configura grupos de acceso (por ejemplo,
AnalystoReader) y asócialos a grupos de Google subyacentes para simplificar la gestión de permisos. - Asigna los roles de gestión de identidades y accesos necesarios a estos grupos de acceso para los recursos específicos.
- Añade un contrato (un aspecto del sistema) para comunicar formalmente la cadencia, la frecuencia y el umbral de actualización de datos acordados.
Para obtener más información, consulta el artículo Crear productos de datos.
Gestionar: actualiza el producto de datos y asegúrate de que se pueda descubrir. Para ello, se deben llevar a cabo las siguientes acciones:
- Actualizar los detalles básicos, los recursos, los permisos y los aspectos complementarios (metadatos) y la documentación de texto enriquecido.
- Concede acceso a los consumidores para que descubran productos de datos y soliciten acceso a ellos.
Para obtener más información, consulta Gestionar productos de datos.
Recorrido del consumidor de productos de datos
Este recorrido se centra en encontrar rápidamente datos fiables y obtener los permisos necesarios para usarlos.
Descubrir: encuentra datos relevantes y fiables para un problema empresarial específico. Esto implica las siguientes acciones:
- Usa la búsqueda de Dataplex Universal Catalog con palabras clave o lenguaje natural para encontrar el producto de datos empaquetado.
- Revisa la descripción general, los recursos, el contrato y otros aspectos del producto de datos para determinar si es adecuado para tu uso.
Para obtener más información, consulta Buscar productos de datos.
Solicitar acceso: pide permiso al propietario del producto de datos para acceder a los datos.
Para obtener más información, consulta Solicitar acceso a productos de datos.
Uso: accede a los recursos subyacentes para generar estadísticas. Esto implica la siguiente acción:
- Una vez que se apruebe, podrás acceder al producto y a sus recursos. Por ejemplo, si el recurso es una tabla de BigQuery, puedes ir al estudio de BigQuery y consultar los datos directamente.
Para obtener más información, consulta Consumir productos de datos.
Recursos admitidos
Un producto de datos puede estar compuesto por uno o varios recursos de datos. En la versión preliminar, se admiten los siguientes recursos de datos:
- Conjuntos de datos de BigQuery
- Tablas de BigQuery
- Vistas de BigQuery
Limitaciones
- Los productos de datos y sus recursos subyacentes deben estar en la mismaGoogle Cloud ubicación.
- Un producto de datos puede contener un máximo de 10 recursos.
- Puede crear un máximo de 50 productos de datos por proyecto.
- La integración del flujo de trabajo de aprobación de solicitudes no está disponible en la versión preliminar. Sin embargo, los consumidores de productos de datos pueden solicitar acceso activando notificaciones por correo electrónico a los propietarios de productos de datos.
Siguientes pasos
- Consulte cómo crear un producto de datos.
- Más información sobre cómo gestionar productos de datos
- Consulte cómo buscar productos de datos.
- Consulte cómo solicitar acceso a productos de datos.