En este documento, se describen la arquitectura y los conceptos clave de los productos de datos en Dataplex Universal Catalog.
Un producto de datos es una colección lógica y seleccionada de recursos de datos, empaquetada formalmente para garantizar que sea detectable, confiable y accesible. Las capacidades clave de un producto de datos incluyen las siguientes:
- Organiza los activos del catálogo en una unidad lógica que resuelva un problema empresarial específico y permita obtener estadísticas más rápido.
- Distribuye con contexto que incluya una descripción, documentación y aspectos.
- Establecer confianza con contratos que permitan a los productores de datos brindar garantías a los consumidores de datos
- Proporcionar un flujo de trabajo de autoservicio para que los consumidores de datos evalúen los productos de datos y obtengan acceso a los datos
Conceptos clave
En esta sección, se describen los conceptos y la terminología clave relacionados con los productos de datos.
Producto de datos
Es una agrupación lógica y seleccionada de recursos de datos, empaquetada formalmente para que se pueda descubrir, confiar en ella y acceder a ella para resolver problemas empresariales específicos.
Recurso
Es un puntero a un recurso de datos físico, como un conjunto de datos, una tabla o una vista de BigQuery. Un producto de datos contiene uno o más recursos.
Grupo de acceso
Los grupos de Google los configuran los propietarios de productos de datos y los usan los consumidores de productos de datos para solicitar acceso. Los permisos de los recursos se asignan a estos grupos de acceso.
Los grupos de acceso simplifican la administración de permisos para tu producto de datos. Actúan como alias fáciles de usar (como Reader o Analyst) para los grupos de IAM subyacentes. Esto permite que los propietarios de productos de datos asignen permisos a un nivel alto y ayuda a los consumidores a solicitar el nivel de acceso correcto.
Propietario o productor de productos de datos
Es la persona o el equipo responsable de la creación y la administración de los productos de datos. Esto incluye la administración de la calidad, el acceso y la documentación.
Consumidor de productos de datos
Es la persona, el equipo o el agente de IA que consume productos de datos para generar estadísticas.
Contrato
Es un acuerdo entre el propietario del producto de datos y sus consumidores. En este acuerdo, se establecen expectativas claras, ya que se definen condiciones específicas sobre cómo se proporcionarán y usarán los datos, como su programa de actualización y los estándares de calidad.
Ejemplo de caso de uso
Considera un científico de datos que analiza un negocio de comercio electrónico. Su objetivo es encontrar el valor promedio del pedido (AOV) por fuente de tráfico y ver si hay una correlación entre la edad del usuario y el tamaño del pedido. Para ello, deben combinar datos de varias tablas, como order_details, user_traffic y user_demographic.
En una configuración convencional, este proceso genera fricción. Para generar estadísticas, el científico de datos primero debe descubrir las tablas correctas dentro del vasto panorama de datos de la organización, luego comunicarse con cada propietario de los datos, justificar su solicitud de acceso y esperar la aprobación.
Con los productos de datos, los propietarios de los datos pueden optimizar esta experiencia agrupando los recursos pertinentes en un solo producto llamado "Datos comerciales de comercio electrónico". Este paquete incluye lo siguiente:
Recursos
- Tablas de BigQuery
order_detailsyuser_traffic(que contienen datos históricos de pedidos y fuentes de tráfico) - Vista de BigQuery
user_demographics(proporciona detalles del usuario sin PII)
- Tablas de BigQuery
Grupos de acceso
- Grupos
ReaderyWriterpredefinidos para optimizar las solicitudes de acceso
- Grupos
Contrato
- Un contrato que define la frecuencia de actualización de los datos (por ejemplo, semanalmente a las 8:00 a.m. [PST])
Contexto
- Documentación con consultas de muestra y otros detalles
- Metadatos adicionales para describir la sensibilidad de los datos
Ahora, los científicos de datos pueden descubrir este producto de datos como una sola unidad lógica. Esto les permite generar estadísticas con confianza para responder preguntas como "¿Cuál es el valor promedio del pedido para cada fuente de tráfico?", lo que, en última instancia, revela qué fuentes generan los clientes más valiosos.
Flujo de usuarios del producto de datos
El ciclo de vida del producto de datos en Dataplex Universal Catalog incluye dos recorridos del usuario clave: uno para el propietario (o productor) del producto de datos que crea y administra los datos, y otro para el consumidor del producto de datos que los descubre y usa.
Recorrido del propietario del producto de datos
Este recorrido se centra en empaquetar, proteger y administrar los productos de datos para garantizar que sean confiables y accesibles.
Creación: Define el producto de datos y agrega recursos. Esto implica las siguientes acciones:
- Configura el nombre único, el proyecto, la región y la descripción.
- Agrega recursos, como tablas, conjuntos de datos o vistas de BigQuery.
- Configura grupos de acceso (por ejemplo,
AnalystoReader) y asígnalos a los grupos de Google subyacentes para simplificar la administración de permisos. - Asigna los roles de IAM necesarios a estos grupos de acceso para los recursos específicos.
- Agrega un contrato (un aspecto del sistema) para comunicar formalmente la cadencia, la frecuencia y el umbral de actualización de datos acordados.
Para obtener más información, consulta Crea productos de datos.
Administrar: Actualiza el producto de datos y garantiza su visibilidad. Esto implica las siguientes acciones:
- Actualiza los detalles básicos, los recursos, los permisos y los aspectos complementarios (metadatos), así como la documentación de texto enriquecido.
- Otorga acceso a los consumidores para que descubran los productos de datos y soliciten acceso a ellos.
Para obtener más información, consulta Administra productos de datos.
Recorrido del consumidor del producto de datos
Este recorrido se enfoca en encontrar rápidamente datos confiables y obtener los permisos necesarios para usarlos.
Descubrir: Encuentra datos relevantes y confiables para un problema empresarial específico. Esto implica las siguientes acciones:
- Usa la búsqueda de Dataplex Universal Catalog con palabras clave o lenguaje natural para encontrar el producto de datos empaquetado.
- Revisa la descripción general, los activos, el contrato y otros aspectos del producto de datos para determinar si es adecuado para su uso.
Para obtener más información, consulta Cómo buscar productos de datos.
Solicita acceso: Pídele permiso al propietario del producto de datos para acceder a los datos.
Para obtener más información, consulta Cómo solicitar acceso a productos de datos.
Uso: Accede a los recursos subyacentes para generar estadísticas. Esto implica la siguiente acción:
- Una vez que se apruebe, podrás acceder al producto y sus recursos. Por ejemplo, si el activo es una tabla de BigQuery, puedes navegar al estudio de BigQuery y consultar los datos directamente.
Para obtener más información, consulta Consume productos de datos.
Recursos admitidos
Un producto de datos puede estar compuesto por uno o más activos de datos. En la versión preliminar, se admiten los siguientes recursos de datos:
- Conjuntos de datos de BigQuery
- Tablas de BigQuery
- Vistas de BigQuery
Limitaciones
- Los productos de datos y sus recursos subyacentes deben residir en la mismaGoogle Cloud ubicación.
- Un producto de datos puede contener un máximo de 10 recursos.
- Puedes crear un máximo de 50 productos de datos por proyecto.
- La integración del flujo de trabajo de solicitud de aprobación no está disponible en la versión preliminar. Sin embargo, los consumidores de productos de datos pueden solicitar acceso activando notificaciones por correo electrónico a los propietarios de los productos de datos.
¿Qué sigue?
- Obtén información para crear un producto de datos.
- Obtén más información para administrar productos de datos.
- Obtén más información para buscar productos de datos.
- Obtén información para solicitar acceso a los productos de datos.