Acerca de los productos de datos

En este documento, se describen la arquitectura y los conceptos clave de los productos de datos en Dataplex Universal Catalog.

Un producto de datos es una colección lógica y seleccionada de recursos de datos, empaquetada formalmente para garantizar que se pueda descubrir, sea confiable y accesible. Las capacidades clave de un producto de datos incluyen lo siguiente:

  • Organizar los recursos del catálogo en una unidad lógica que resuelva un problema empresarial específico y permita obtener estadísticas más rápido
  • Distribuir con contexto que incluya una descripción, documentación y aspectos
  • Establecer confianza con contratos que permitan a los productores de datos brindar garantías a los consumidores de datos
  • Proporcionar un flujo de trabajo de autoservicio para que los consumidores de datos evalúen los productos de datos y obtengan acceso a los datos

Conceptos clave

En esta sección, se describen los conceptos y la terminología clave relacionados con los productos de datos.

Producto de datos

Es una agrupación lógica y seleccionada de recursos de datos, empaquetada formalmente para que se pueda descubrir, sea confiable y accesible para resolver problemas empresariales específicos.

Recurso

Es un puntero a un recurso de datos físico, como un conjunto de datos, una tabla o una vista de BigQuery. Un producto de datos contiene uno o más recursos.

Grupo de acceso

Los propietarios de productos de datos configuran los Grupos de Google, y los consumidores de productos de datos los usan para solicitar acceso. Los permisos de los recursos se asignan a estos grupos de acceso.

Los grupos de acceso simplifican la administración de permisos para tu producto de datos. Actúan como alias fáciles de usar (como Reader o Analyst) para los grupos de IAM subyacentes. Esto permite a los propietarios de productos de datos asignar permisos de alto nivel y ayuda a los consumidores a solicitar el nivel de acceso correcto.

Propietario o productor de productos de datos

Es la persona o el equipo responsable de la creación y la administración de productos de datos. Esto incluye la administración de la calidad, el acceso y la documentación.

Consumidor de productos de datos

Es la persona, el equipo o el agente de IA que consume productos de datos para generar estadísticas.

Contrato

Es un acuerdo entre el propietario del producto de datos y sus consumidores. Este acuerdo establece expectativas claras mediante la definición de términos específicos sobre cómo se proporcionarán y usarán los datos, como su cronograma de actualización y sus estándares de calidad.

Ejemplo de caso de uso

Considera a un científico de datos que analiza una empresa de comercio electrónico. Su objetivo es encontrar el valor promedio del pedido (AOV) por fuente de tráfico y ver si hay una correlación entre la edad del usuario y el tamaño del pedido. Para ello, debe combinar datos de varias tablas, como order_details, user_traffic y user_demographic.

En una configuración convencional, este proceso genera fricción. Para generar estadísticas, el científico de datos primero debe descubrir las tablas correctas dentro del vasto panorama de datos de la organización, luego comunicarse con cada propietario de datos, justificar su solicitud de acceso y esperar la aprobación.

Con los productos de datos, los propietarios de datos pueden optimizar esta experiencia empaquetando los recursos relevantes en un solo producto llamado "Datos de la empresa de comercio electrónico". Este paquete incluye lo siguiente:

  • Recursos

    • Tablas de BigQuery order_details y user_traffic (que contienen datos históricos de pedidos y fuentes de tráfico)
    • Vista de BigQuery user_demographics (que proporciona detalles del usuario con información de identificación personal excluida)
  • Grupos de acceso

    • Grupos Reader y Writer predefinidos para optimizar las solicitudes de acceso
  • Contrato

    • Un contrato que define la frecuencia de actualización de los datos (por ejemplo, semanalmente a las 8:00 a.m., hora del Pacífico)
  • Contexto

    • Documentación con consultas de ejemplo y otros detalles
    • Metadatos adicionales para describir la sensibilidad de los datos

Los científicos de datos ahora pueden descubrir este producto de datos como una sola unidad lógica. Esto les permite generar estadísticas con confianza para responder preguntas como "¿Cuál es el valor promedio del pedido para cada fuente de tráfico?", lo que, en última instancia, revela qué fuentes generan los clientes de mayor valor.

Flujo de usuarios del producto de datos

El ciclo de vida del producto de datos en Dataplex Universal Catalog incluye dos recorridos clave del usuario: uno para el propietario (o productor) del producto de datos que crea y administra los datos, y otro para el consumidor del producto de datos que los descubre y usa.

Recorrido del propietario del producto de datos

Este recorrido se centra en empaquetar, proteger y administrar los productos de datos para garantizar que sean confiables y accesibles.

  • Crear: Define el producto de datos e incluye recursos. Esto implica las siguientes acciones:

    • Configurar el nombre, el proyecto, la región y la descripción únicos
    • Agregar recursos, como tablas, conjuntos de datos o vistas de BigQuery
    • Configurar grupos de acceso (por ejemplo, Analyst o Reader) y asignarlos a los Grupos de Google subyacentes para simplificar la administración de permisos
    • Asignar los roles de IAM necesarios a estos grupos de acceso para los recursos específicos
    • Agregar un contrato (un aspecto del sistema) para comunicar formalmente la cadencia, la frecuencia y el umbral de actualización de datos acordados

    Para obtener más información, consulta Crea productos de datos.

  • Administrar: Actualiza el producto de datos y garantiza la capacidad de descubrimiento. Esto implica las siguientes acciones:

    • Actualizar los detalles básicos, los recursos, los permisos y los aspectos complementarios (metadatos), y la documentación de texto enriquecido
    • Otorgar acceso a los consumidores para que descubran los productos de datos y soliciten acceso a ellos

    Para obtener más información, consulta Administra productos de datos.

Recorrido del consumidor del producto de datos

Este recorrido se centra en encontrar rápidamente datos confiables y obtener los permisos necesarios para usarlos.

  • Descubrir: Encuentra datos relevantes y confiables para un problema empresarial específico. Esto implica las siguientes acciones:

    • Usa la búsqueda de Dataplex Universal Catalog con palabras clave o lenguaje natural para encontrar el producto de datos empaquetado.
    • Revisa la descripción general, los recursos, el contrato y otros aspectos del producto de datos para determinar si es adecuado para su uso.

    Para obtener más información, consulta Busca productos de datos.

  • Solicitar acceso: Pídele permiso al propietario del producto de datos para acceder a los datos.

    Para obtener más información, consulta Solicita acceso a productos de datos.

  • Usar: Accede a los recursos subyacentes para generar estadísticas. Esto implica la siguiente acción:

    • Una vez que se apruebe, podrás acceder al producto y a sus recursos. Por ejemplo, si el recurso es una tabla de BigQuery, puedes navegar al estudio de BigQuery y consultar los datos directamente.

    Para obtener más información, consulta Consume productos de datos.

Recursos admitidos

Un producto de datos puede estar compuesto por uno o más recursos de datos. En la versión preliminar, se admiten los siguientes recursos de datos:

  • Conjuntos de datos de BigQuery
  • Tablas de BigQuery
  • Vistas de BigQuery

Limitaciones

  • Los productos de datos y sus recursos subyacentes deben residir en la misma Google Cloud ubicación.
  • Un producto de datos puede contener un máximo de 10 recursos.
  • Puedes crear un máximo de 50 productos de datos por proyecto y por región.
  • La integración del flujo de trabajo de aprobación de solicitudes no está disponible en la versión preliminar. Sin embargo, los consumidores de productos de datos pueden solicitar acceso activando notificaciones por correo electrónico a los propietarios de productos de datos.

¿Qué sigue?