Administra recursos de datos en un lake

En esta página, se explica cómo agregar, actualizar y quitar buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos en las zonas existentes de Dataplex Universal Catalog.

Descripción general

Un recurso se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar los datos almacenados en proyectos Google Cloud independientes como recursos a una sola zona dentro de un lake. Puedes adjuntar buckets de Cloud Storage o conjuntos de datos de BigQuery existentes para que se administren desde el lake.

Antes de comenzar

  • Si aún no lo hiciste, crea un lake y una zona en ese lake.

  • La mayoría de los comandos gcloud lakes requiere una ubicación. Puedes especificar la ubicación con la marca --location.

Roles y permisos requeridos

Para administrar recursos en Dataplex Universal Catalog, los usuarios deben tener permisos para realizar acciones de administración, y la cuenta de servicio de Dataplex Universal Catalog debe tener acceso a los recursos subyacentes.

Para agregar o quitar recursos, los usuarios deben tener roles de IAM que contengan los permisos necesarios (como dataplex.assets.create y dataplex.assets.delete). Los roles predefinidos Administrador de Dataplex (roles/dataplex.admin) y Editor de Dataplex (roles/dataplex.editor), o los roles heredados Propietario (roles/owner) y Editor (roles/editor), incluyen estos permisos.

Cuando conectas un recurso (bucket de Cloud Storage o conjunto de datos de BigQuery) a un lake, Dataplex Universal Catalog usa su cuenta de servicio para interactuar con ese recurso.

  • Si el recurso se encuentra en el mismo proyecto que el lago, los permisos se otorgan de forma implícita a la cuenta de servicio.
  • Si el recurso se encuentra en un proyecto diferente del lago, debes otorgar explícitamente permisos a la cuenta de servicio para acceder a ese recurso, como se describe en las siguientes secciones.

Para obtener más información, consulta IAM y control de acceso de Dataplex Universal Catalog.

Cómo otorgar roles para buckets de Cloud Storage

Para adjuntar un bucket de Cloud Storage de otro proyecto, otorga permisos a la cuenta de servicio de Dataplex Universal Catalog (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) de una de las siguientes maneras:

  • Permisos a nivel del proyecto: Otorga el rol roles/dataplex.serviceAgent a la cuenta de servicio en el proyecto que contiene el bucket. Esto proporciona a Dataplex Universal Catalog permisos de administrador en todos los buckets del proyecto, lo que le permite administrar los permisos en los buckets adjuntos.

  • Permisos a nivel del bucket: Para obtener un control más detallado, usa el comando gcloud dataplex lakes authorize para otorgar a la cuenta de servicio los permisos necesarios solo en un bucket específico.

Otorga roles para conjuntos de datos de BigQuery

Para adjuntar un conjunto de datos de BigQuery de otro proyecto, otorga a la cuenta de servicio de Dataplex Universal Catalog el rol de administrador de BigQuery (roles/bigquery.admin) en el conjunto de datos.

Consideraciones sobre los Controles del servicio de VPC

Dataplex Universal Catalog no incumple los perímetros de los Controles del servicio de VPC. Antes de agregar un activo al lake, asegúrate de que el bucket o el conjunto de datos subyacente se encuentre en la misma red de Controles del servicio de VPC que el lake.

Para obtener más información, consulta Controles del servicio de VPC con Dataplex Universal Catalog.

Agrega un recurso

Si no hay superposición entre la región del lake de Dataplex Universal Catalog y la región de uno de los buckets de Cloud Storage, no podrás agregar el bucket a una zona de tu lake.

Para obtener más información sobre la ubicación regional de un recurso de Cloud Storage y cómo Dataplex Universal Catalog controla la ubicación de un bucket cuando se crea el conjunto de datos de publicación, consulta Recursos regionales.

Para agregar un recurso, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.

    Ir a Lakes

  2. Haz clic en el lake al que deseas agregar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos a la que deseas agregar el activo. Se abrirá la página de la zona de datos correspondiente.

  4. En la pestaña Recursos, haz clic en + Agregar recursos. Se abrirá la página Agregar recursos.

  5. Haz clic en Agregar un recurso.

  6. En el campo Tipo, selecciona Conjunto de datos de BigQuery o Bucket de Cloud Storage.

  7. En el campo Nombre visible, ingresa un nombre para el activo nuevo.

  8. En el campo ID, ingresa un ID único para el activo.

  9. Escribe una descripción (opcional).

  10. En el campo Conjunto de datos o Bucket (según el tipo de activo), haz clic en Explorar para buscar y seleccionar tu bucket de Cloud Storage o tu conjunto de datos de BigQuery.

  11. Opcional: Si tu tipo de recurso es Bucket de Cloud Storage y deseas que Dataplex Universal Catalog administre el recurso, selecciona la casilla de verificación Actualizar a administrado. Si eliges esta opción, no tendrás que actualizar el activo por separado. Esta opción no está disponible para los conjuntos de datos de BigQuery.

  12. Haz clic en Continuar.

  13. Elige el resto de los valores de los parámetros. Para obtener más información sobre la configuración de seguridad, consulta Seguridad del lago.

  14. Haz clic en Enviar.

  15. Verifica que hayas regresado a la página de la zona de datos y que tu nuevo activo aparezca en la lista de activos.

REST

Para agregar un activo, usa el método lakes.zones.assets.create.

Cuando la adición se realiza con éxito, la zona de datos ingresa automáticamente al estado activo. Si falla, la zona de datos se revierte a su estado correcto anterior.

Actualiza un recurso de bucket de Cloud Storage

Cuando agregas un recurso del tipo bucket de Cloud Storage, Dataplex Universal Catalog publica automáticamente las tablas externas de BigQuery para las tablas alojadas en el recurso.

Cuando actualizas un recurso de bucket de Cloud Storage, Dataplex Universal Catalog quita las tablas externas adjuntas y crea tablas de BigLake. Las tablas de BigLake admiten una mejor seguridad detallada, incluido el enmascaramiento de datos dinámico, a nivel de fila y a nivel de columna.

Para actualizar un recurso de bucket de Cloud Storage, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.

    Ir a Lakes

  2. Haz clic en el nombre del lago. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.

  4. En la pestaña Recursos, haz clic en el nombre del recurso que deseas actualizar.

  5. Haz clic en Actualizar a Managed.

REST

Para actualizar un recurso de bucket, usa el método lakes.zones.assets.patch.

Cómo cambiar a una versión anterior de un recurso de bucket de Cloud Storage

Cuando disminuyes la versión de un recurso de bucket de Cloud Storage, Dataplex Universal Catalog quita las tablas de BigLake adjuntas y crea tablas externas.

Console

  1. En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.

    Ir a Lakes

  2. Haz clic en el nombre del lago. Se abrirá la página del lago.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.

  4. En la pestaña Recursos, haz clic en el nombre del recurso que deseas actualizar.

  5. Haz clic en Cambiar a una versión inferior a la administrada.

REST

Para reducir la versión de un activo de bucket, usa el método lakes.zones.assets.patch. Asegúrate de configurar el campo readAccessMode como DIRECT en ResourceSpec.

Cómo quitar un recurso

Quita el activo de la zona o el lago de datos antes de adjuntarlo a otro.

Para quitar un activo, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.

    Ir a Lakes

  2. Haz clic en el lake del que deseas quitar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lake.

  3. En la pestaña Zonas, haz clic en el nombre de la zona de datos de la que deseas quitar el bucket de Cloud Storage o el conjunto de datos de BigQuery. Se abrirá la página de la zona de datos correspondiente.

  4. En la pestaña Recursos, selecciona el recurso marcando la casilla de verificación que está a la izquierda de su nombre.

  5. Haz clic en Borrar recurso.

  6. En el diálogo de confirmación, haz clic en Borrar.

REST

Para quitar un bucket, usa el método lakes.zones,assets.delete.

¿Qué sigue?