Crear productos de datos

Este documento está dirigido a los propietarios de productos de datos que quieran crear y configurar productos de datos en Dataplex Universal Catalog.

Para obtener más información sobre la arquitectura y los conceptos clave de los productos de datos, consulta el artículo Acerca de los productos de datos.

Antes de empezar

  1. Enable the Dataplex, BigQuery APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  2. Asegúrate de que tus recursos de datos (por ejemplo, conjuntos de datos, tablas y vistas de BigQuery) se hayan creado y rellenado.

    Para obtener más información sobre cómo crear recursos de datos, consulte los siguientes documentos:

  3. Identifica o crea los grupos de Google que quieras configurar en tu producto de datos. Cada producto de datos debe tener un grupo de Google único.

Roles obligatorios

En esta sección se describen los roles de gestión de identidades y accesos mínimos necesarios para dos grupos de usuarios principales: los propietarios de productos de datos (los que crean y gestionan productos de datos) y los consumidores de productos de datos (los que buscan y usan productos de datos).

Roles de un propietario de datos

Para obtener los permisos que necesitas para crear y gestionar productos de datos, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en el proyecto:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para crear y gestionar productos de datos. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para crear y gestionar productos de datos, se necesitan los siguientes permisos:

  • Edita el overviewtipo de aspecto del sistema dataplex.entryGroups.useOverviewAspect: dataplex.entryGroups.useOverviewAspect
  • Edita el tipo de aspecto del sistema refresh cadence: dataplex.entryGroups.useRefreshCadenceAspect

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Roles de un consumidor de un producto de datos

Para que los consumidores de productos de datos puedan buscar, ver y solicitar acceso a productos de datos, como propietario de un producto de datos, debe asegurarse de que el producto de datos se pueda descubrir. Para ello, concede a los consumidores del producto de datos los siguientes roles de gestión de identidades y accesos en el producto de datos:

  • Buscar productos de datos y acceder a ellos en la búsqueda de Dataplex Universal Catalog: Consumidor de productos de datos de Dataplex (dataplex.dataProductsConsumer)
  • Acceso de solo lectura para ver las definiciones y los metadatos de los productos de datos: Visor de productos de datos de Dataplex (dataplex.dataProductsViewer)
  • Solicitar acceso a productos de datos: consumidor de productos de datos de Dataplex (dataplex.dataProductsConsumer)

Crear y configurar un producto de datos

Para crear un producto de datos, debes llevar a cabo las siguientes tareas generales:

  1. Crear un producto de datos

    Este paso inicial obligatorio requiere definir detalles básicos, como un nombre único para el producto de datos, una descripción, la región en la que se crea el producto de datos y los detalles del propietario.

  2. Opcional: Añadir recursos

    En esta fase, selecciona los recursos que quieres incluir en el producto de datos. Una restricción clave es que los recursos deben residir en la misma región que el producto de datos. Puede añadir un máximo de 10 recursos a un producto de datos.

    Para ver la lista de recursos admitidos, consulta Recursos admitidos.

  3. Opcional: Configurar grupos de acceso y permisos de recursos

    En esta fase opcional, puedes simplificar el control de acceso creando grupos de acceso. Estos grupos de acceso actúan como alias fáciles de usar (por ejemplo, Analyst o Reader) de los grupos de Google subyacentes. Después, asigna permisos seleccionando un rol de IAM específico y asociándolo a un grupo de acceso de un recurso concreto.

  4. Opcional: Añade más detalles, como contratos, aspectos y documentación

    Esta fase opcional mejora la gobernanza y los metadatos. Puedes añadir un contrato, que es un tipo de aspecto propio, para comunicar formalmente la cadencia de actualización de datos acordada, especificando parámetros como la frecuencia de actualización, la hora de actualización y el umbral. También puede incluir aspectos para proporcionar metadatos adicionales de su producto de datos. Además, puedes añadir documentación de texto enriquecido, como guías de usuario y consultas de ejemplo.

Para crear y configurar un producto de datos, sigue los pasos que se indican en las siguientes secciones:

Crear un producto de datos

Consola

  1. En la Google Cloud consola, ve a la página Productos de datos de Dataplex Universal Catalog.

    Ir a Productos de datos

  2. Haz clic en Crear.

  3. En el panel Crear productos de datos, introduce los siguientes detalles:

    • Nombre del producto de datos: introduzca un nombre único para su producto de datos.
    • ID de producto de datos: es un identificador único generado automáticamente. Este campo se puede editar.
    • ID de proyecto: es el identificador único del proyecto en el que se crea el producto de datos. Busca y selecciona el proyecto.
    • Región: selecciona la región o multirregión en la que se creará el producto de datos.
    • Icono: busca y selecciona un icono para identificar visualmente el producto de datos. Este paso es opcional.
    • Descripción: escribe una breve descripción del producto de datos.
    • Contactos: introduzca el ID de correo del propietario del producto de datos.
    • Etiquetas: añade etiquetas de pares clave-valor para organizar tus recursos. Esto es opcional.
  4. Haz clic en Crear producto de datos.

REST

Para crear un producto de datos, usa el método dataProducts.create.

Por ejemplo, envía la siguiente solicitud POST:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"display_name": "DISPLAY_NAME", "owner_emails": ["EMAIL_IDs"]}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts?data_product_id=DATA_PRODUCT_ID

Haz los cambios siguientes:

  • DISPLAY_NAME: nombre descriptivo del producto de datos.
  • EMAIL_IDs: IDs de correo separados por comas de los propietarios del producto de datos.
  • PROJECT_ID: el ID de tu Google Cloud proyecto
  • LOCATION: la región en la que quieres crear el producto de datos
  • DATA_PRODUCT_ID: un ID único de tu producto de datos

Opcional: Añadir recursos

Consola

  1. En el panel Añadir recursos, haz clic en +Añadir.

  2. Busca y selecciona los recursos que quieras añadir a tu producto de datos. Los recursos que selecciones deben estar en la misma región que el producto de datos.

    Si tienes los permisos necesarios, puedes ver los metadatos de los recursos haciendo clic en ellos.

  3. Para acotar los resultados de búsqueda, usa Filtros.

  4. Cuando hayas seleccionado los recursos, haz clic en Añadir.

  5. Haz clic en Continuar.

REST

Para añadir un recurso de datos a su producto de datos, utilice el método dataAssets.create.

Por ejemplo, envía la siguiente solicitud POST:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"resource": "RESOURCE_NAME"}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets?data_asset_id=DATA_ASSET_ID

Haz los cambios siguientes:

  • RESOURCE_NAME: el nombre completo del recurso del recurso de datos (por ejemplo, //bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID)
  • PROJECT_ID: el ID de tu Google Cloud proyecto
  • LOCATION: la región en la que se encuentra el producto de datos
  • DATA_PRODUCT_ID: el ID del producto de datos
  • DATA_ASSET_ID: un ID único de este recurso de datos en el producto de datos

Opcional: Configurar grupos de acceso y permisos de recursos

En el panel Configurar grupos de acceso y permisos de recursos, puedes crear grupos de acceso y asignar permisos a los recursos.

Configurar grupos de acceso

Consola

  1. Haz clic en Añadir grupo de acceso.

  2. En el campo Nombre del grupo de acceso, introduce un nombre para el grupo de acceso. Por ejemplo, Analyst.

  3. En el campo Descripción del grupo de acceso, escribe una descripción del grupo de acceso.

  4. En el campo Access group identifier (Identificador del grupo de acceso), introduce la dirección de correo de un grupo de Google que quieras asignar a este grupo de acceso. Los consumidores de productos de datos que soliciten acceso a este grupo de acceso se pueden añadir como miembros al grupo de Google asignado.

    Si no tienes un grupo de Google, puedes crear uno. Para obtener más información, consulta Crear y gestionar grupos de Google en la consola de Google Cloud .

  5. Haz clic en Añadir.

REST

Para configurar un grupo de acceso para el producto de datos, usa el método dataProducts.patch.

Por ejemplo, envía la siguiente solicitud PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_groups": ACCESS_GROUPS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID?update_mask="access_groups"

Haz los cambios siguientes:

  • ACCESS_GROUPS_MAP: objeto JSON que representa un mapa en el que cada clave es un ID de grupo de acceso y el valor es un objeto AccessGroup. Por ejemplo:

    {
    "analyst": {
      "id": "analyst","display_name": "Analyst access group","description": "Access group for analysts","principal":
    {"google_group": "analyst-team@example.com"}
      }
    }
    
  • PROJECT_ID: el ID de tu Google Cloud proyecto

  • LOCATION: región en la que se encuentra el producto de datos

  • DATA_PRODUCT_ID: el ID de su producto de datos

Configurar permisos de recursos

Después de configurar los grupos de acceso, puede configurar los permisos de los recursos del producto de datos.

Consola

  1. En la sección Permisos de recursos, selecciona el recurso para el que quieras configurar los permisos.

  2. Haz clic en Configurar permisos.

  3. En el campo Seleccionar grupo de acceso, elija un grupo de acceso.

  4. En el campo Asignar rol de gestión de identidades y accesos, selecciona el rol de gestión de identidades y accesos que quieras asignar al grupo de acceso.

    Por ejemplo, si tu recurso es una tabla de BigQuery llamada Sales, has seleccionado el grupo de acceso Analyst y le has asignado el rol BigQuery Metadata Viewer, los consumidores del producto de datos que formen parte del grupo de acceso Analyst tendrán el permiso BigQuery Metadata Viewer en la tabla Sales.

    Puedes añadir varios roles a un recurso.

  5. Haz clic en Configurar. Ahora se muestran los permisos asignados al recurso.

  6. Para configurar los permisos de otros recursos, repite los pasos.

  7. Haz clic en Continuar.

REST

Para configurar los permisos de los recursos del producto de datos, utilice el método dataAssets.patch.

Por ejemplo, envía la siguiente solicitud PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_group_configs": ACCESS_GROUP_CONFIGS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets/DATA_ASSET_ID?update_mask="access_group_configs"

Haz los cambios siguientes:

  • ACCESS_GROUP_CONFIGS_MAP: objeto JSON que representa un mapa en el que cada clave es un ID de grupo de acceso y el valor es un objeto AccessGroupConfig. Por ejemplo:

    {
    "analyst": {
      iam_roles: ["roles/bigquery.dataViewer"]
      }
    }
    
  • PROJECT_ID: el ID de tu Google Cloud proyecto

  • LOCATION: región en la que se encuentra el producto de datos

  • DATA_PRODUCT_ID: el ID de su producto de datos

  • DATA_ASSET_ID: el ID del recurso para el que quieres configurar los permisos

Opcional: Añade más detalles

También puedes añadir contratos, aspectos y documentación adicional del producto de datos.

Añadir un contrato

Consola

  1. En el panel Añadir más detalles, haga clic en Añadir contrato.

  2. En el campo Seleccionar contrato, selecciona Refresh cadence.

  3. En el campo Frecuencia, seleccione una programación acordada para determinar con qué frecuencia se actualizan o se entregan los datos. De esta forma, se asegura un flujo predecible desde el productor de datos hasta el consumidor de datos. Por ejemplo, Weekly.

  4. En el campo Tiempo de actualización, introduce el tiempo máximo aceptable que transcurre entre la actualización de los datos en su fuente y el momento en que están disponibles para el consumidor. Por ejemplo, 23:00 PST.

  5. En el campo Umbral (en minutos), introduce un límite medible en minutos para el retraso aceptable en la entrega de datos. Por ejemplo, introduce 30 para definir el umbral en 30 minutos.

  6. Opcional: En el campo Programación cron, introduce una expresión cron que defina la programación de la generación y la entrega de datos con el formato MINUTE HOUR DAY_OF_MONTH MONTH DAY_OF_WEEK.

    Estos son los valores aceptados:

    • MINUTE: 0-59
    • HOUR: 0-23
    • DAY_OF_MONTH: 1-31
    • MONTH: 1-31 o JAN-DEC
    • DAY_OF_WEEK: 0-6 o SUN-SAT

    Por ejemplo, 0 8 * * 1-5 se ejecuta a las 8:00 los días laborables (de lunes a viernes).

  7. Haz clic en Guardar.

REST

Los contratos se modelan como aspectos en el producto de datos. Para añadir un contrato Refresh Cadence a un producto de datos, usa el método entries.patch.

Por ejemplo, envía la siguiente solicitud PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
  "aspects": {
    "dataplex-types.global.refresh-cadence": {
      "aspectType": "projects/dataplex-types/locations/global/aspectTypes/refresh-cadence",
      "data": {
        "frequency": "REFRESH_FREQUENCY"
      }
    }
  }
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_ID/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"

Haz los cambios siguientes:

  • REFRESH_FREQUENCY: la programación acordada sobre la frecuencia con la que se actualizan o se entregan los datos, lo que asegura un flujo predecible desde el productor de datos hasta el consumidor de datos. Por ejemplo: Weekly
  • PROJECT_ID: el ID de tu Google Cloud proyecto en el que se está haciendo la llamada a la API
  • LOCATION: la región del endpoint del servicio Dataplex Universal Catalog al que llamas (por ejemplo, us-central1)
  • DATA_PRODUCT_PROJECT_ID: ID del proyecto en el que se encuentra el recurso de producto de datos.
  • DATA_PRODUCT_LOCATION: la ubicación del recurso de datos de producto
  • DATA_PRODUCT_ID: el ID de su producto de datos

Añadir metadatos adicionales

Para añadir metadatos adicionales al producto de datos como aspectos, siga estos pasos:

Consola

  1. En el panel Añadir más detalles, haz clic en + Añadir aspecto.

  2. En el campo Select aspect type (Seleccionar tipo de aspecto), busca y selecciona un tipo de aspecto de la lista. Por ejemplo, Geo context.

  3. En el campo País, seleccione el país al que pertenece el recurso.

  4. En el campo Región, selecciona la región empresarial a la que pertenece el recurso.

  5. Haz clic en Guardar.

  6. Para añadir documentación adicional, como una guía de usuario o consultas de ejemplo, haz clic en Editar junto a Documentación. Se abrirá un editor de texto enriquecido. Añade contenido y haz clic en Guardar.

  7. Haz clic en Guardar.

    El producto de datos que acabas de crear aparece en la página Productos de datos de Dataplex Universal Catalog.

REST

Para añadir aspectos y documentación a un producto de datos, usa el método entries.patch.

La documentación de un producto de datos se gestiona mediante el tipo de aspecto del sistema overview.

Siguientes pasos