En esta página, se explica cómo agregar, actualizar y quitar buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos en las zonas existentes de Knowledge Catalog (anteriormente, Dataplex Universal Catalog).
Descripción general
Un recurso se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar datos almacenados en proyectos separados como recursos en una sola zona dentro de un lake. Google Cloud Puedes adjuntar buckets de Cloud Storage o conjuntos de datos de BigQuery existentes para que se administren desde el lake.
Antes de comenzar
Si aún no lo hiciste, crea un lake y una zona en ese lake.
La mayoría de los comandos
gcloud lakesrequieren una ubicación. Puedes especificar la ubicación con la marca--location.
Roles y permisos requeridos
Para administrar recursos en Knowledge Catalog, se requieren permisos para que los usuarios realicen acciones de administración y para que la cuenta de servicio de Knowledge Catalog acceda a los recursos subyacentes.
Para agregar o quitar recursos, los usuarios deben tener roles de IAM que contengan los permisos necesarios (como dataplex.assets.create y dataplex.assets.delete). Los roles predefinidos Administrador de Dataplex (roles/dataplex.admin) y Editor de Dataplex (roles/dataplex.editor), o los roles heredados Propietario (roles/owner) y Editor (roles/editor), incluyen estos permisos.
Cuando adjuntas un recurso (bucket de Cloud Storage o conjunto de datos de BigQuery) a un lake, Knowledge Catalog usa su cuenta de servicio para interactuar con ese recurso.
- Si el recurso está en el mismo proyecto que el lake, los permisos se otorgan de forma implícita a la cuenta de servicio.
- Si el recurso está en un proyecto diferente al del lake, debes otorgar explícitamente los permisos de la cuenta de servicio para acceder a ese recurso, como se describe en las siguientes secciones.
Para obtener más información, consulta IAM y control de acceso de Knowledge Catalog.
Otorga roles para buckets de Cloud Storage
Para adjuntar un bucket de Cloud Storage de otro proyecto, otorga permisos a la
cuenta de servicio de Knowledge Catalog
(service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)
de una de las siguientes maneras:
Permisos a nivel del proyecto: otorga el rol
roles/dataplex.serviceAgenta la cuenta de servicio en el proyecto que contiene el bucket. Esto proporciona a Knowledge Catalog permisos de administrador en todos los buckets del proyecto, lo que le permite administrar los permisos en los buckets adjuntos.Permisos a nivel del bucket: Para un control más detallado, usa el
gcloud dataplex lakes authorizecomando para otorgar a la cuenta de servicio los permisos necesarios solo en un bucket específico.
Otorga roles para conjuntos de datos de BigQuery
Para adjuntar un conjunto de datos de BigQuery de otro proyecto,
otorga a la
cuenta de servicio de Knowledge Catalog
el rol de Administrador de BigQuery (roles/bigquery.admin) en el conjunto de datos.
Consideraciones sobre los Controles del servicio de VPC
Knowledge Catalog no infringe los perímetros de los Controles del servicio de VPC. Antes de agregar un recurso al lake, asegúrate de que el bucket o el conjunto de datos subyacente se encuentre en la misma red de Controles del servicio de VPC que el lake.
Para obtener más información, consulta Controles del servicio de VPC con Knowledge Catalog.
Agrega un recurso
Si no hay superposición entre la región del lake de Knowledge Catalog y una de las regiones de los buckets de Cloud Storage, no puedes agregar el bucket a una zona de tu lake.
Para obtener más información sobre la ubicación de la región de un recurso de Cloud Storage y cómo Knowledge Catalog controla la ubicación de un bucket cuando crea el conjunto de datos de publicación, consulta Recursos regionales.
Para agregar un recurso, sigue estos pasos:
Console
En la Google Cloud consola de, ve a la página Lakes de Knowledge Catalog.
Haz clic en el lake al que deseas agregar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lake.
En la pestaña Zonas, haz clic en el nombre de la zona de datos a la que deseas agregar el recurso. Se abrirá la página Zona de datos para esa zona de datos.
En la pestaña Recursos, haz clic en + Agregar recursos. Se abrirá la página Agregar recursos.
Haz clic en Agregar un recurso.
En el campo Tipo, selecciona Conjunto de datos de BigQuery o Bucket de Cloud Storage.
En el campo Nombre visible, ingresa un nombre para el recurso nuevo.
En el campo ID, ingresa un ID único para el recurso.
Ingresa una Descripción (opcional).
En el campo Conjunto de datos o Bucket (según el tipo de recurso), haz clic en Explorar para buscar y seleccionar tu bucket de Cloud Storage o conjunto de datos de BigQuery.
Opcional: Si el tipo de recurso es Bucket de Cloud Storage y deseas que Knowledge Catalog administre el recurso, selecciona la casilla de verificación Actualizar a administrado. Si eliges esta opción, no tienes que actualizar el recurso por separado. Esta opción no está disponible para los conjuntos de datos de BigQuery.
Haz clic en Continuar.
Elige el resto de los valores de los parámetros. Para obtener más información sobre la configuración de seguridad, consulta Seguridad del lake.
Haz clic en Enviar.
Verifica que regresaste a la página de la zona de datos y que el recurso nuevo aparezca en la lista de recursos.
REST
Para agregar un recurso, usa el lakes.zones.assets.create.
Cuando la adición se realiza correctamente, la zona de datos ingresa automáticamente al estado activo. Si falla, la zona de datos vuelve a su estado anterior en buen estado.
Actualiza un recurso de bucket de Cloud Storage
Cuando agregas un recurso de tipo bucket de Cloud Storage, Knowledge Catalog publica automáticamente tablas externas de BigQuery para las tablas alojadas en el recurso.
Cuando actualizas un recurso de bucket de Cloud Storage, Knowledge Catalog quita las tablas externas adjuntas y crea tablas de BigLake. Las tablas de BigLake admiten una mejor seguridad detallada, incluido el nivel de fila, el nivel de columna y el enmascaramiento de datos dinámico.
Para actualizar un recurso de bucket de Cloud Storage, sigue estos pasos:
Console
En la Google Cloud consola de, ve a la página Lakes de Knowledge Catalog.
Haz clic en el nombre del lake. Se abrirá la página del lake.
En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.
En la pestaña Recursos, haz clic en el nombre del recurso que deseas actualizar.
Haz clic en Actualizar a administrado.
REST
Para actualizar un recurso de bucket, usa el lakes.zones.assets.patch método.
Disminuye la versión de un recurso de bucket de Cloud Storage
Cuando disminuyes la versión de un recurso de bucket de Cloud Storage, Knowledge Catalog quita las tablas de BigLake adjuntas y crea tablas externas.
Console
En la Google Cloud consola de, ve a la página Lakes de Knowledge Catalog.
Haz clic en el nombre del lake. Se abrirá la página del lake.
En la pestaña Zonas, haz clic en el nombre de la zona de datos. Se abrirá la página de la zona de datos.
En la pestaña Recursos, haz clic en el nombre del recurso que deseas actualizar.
Haz clic en Disminuir la versión de administrado.
REST
Para disminuir la versión de un recurso de bucket, usa el
lakes.zones.assets.patch
método. Asegúrate de configurar el campo readAccessMode en DIRECT en
ResourceSpec.
Cómo quitar un recurso
Quita el recurso de la zona de datos o del lake antes de adjuntarlo a otro.
Para quitar un recurso, sigue estos pasos:
Console
En la Google Cloud consola de, ve a la página Lakes de Knowledge Catalog.
Haz clic en el lake del que deseas quitar un bucket de Cloud Storage o un conjunto de datos de BigQuery. Se abrirá la página del lake.
En la pestaña Zonas, haz clic en el nombre de la zona de datos de la que deseas quitar el bucket de Cloud Storage o el conjunto de datos de BigQuery. Se abrirá la página Zona de datos para esa zona de datos.
En la pestaña Recursos, selecciona el recurso marcando la casilla que está a la izquierda del nombre del recurso.
Haz clic en Borrar recurso.
En el diálogo de confirmación, haz clic en Borrar.
REST
Para quitar un bucket, usa el método lakes.zones,assets.delete.
¿Qué sigue?
- Obtén más información para descubrir datos.
- Obtén información para crear un lake.
- Obtén más información sobre Cloud Audit Logs.