En este documento, se describen las zonas de Knowledge Catalog (antes Dataplex Universal Catalog) y cómo agregarlas a tu lake de Knowledge Catalog.
Descripción general
Las zonas de Knowledge Catalog son entidades con nombre dentro de un lake de Knowledge Catalog. Son agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados, que constan de varios recursos, como buckets de Cloud Storage, conjuntos de datos de BigQuery y tablas de BigQuery.
Un lake puede incluir una o más zonas. Si bien una zona solo puede formar parte de un lake, puede contener recursos que apuntan a recursos que forman parte de proyectos fuera de su proyecto superior.
Puedes seleccionar configuraciones para una zona en Knowledge Catalog. Hay dos tipos de zonas que puedes elegir: sin procesar y seleccionadas.
Zonas de datos sin procesar
Las zonas de datos sin procesar almacenan datos estructurados, datos semiestructurados, como archivos CSV y archivos JSON, y datos no estructurados en cualquier formato de fuentes externas. Las zonas de datos sin procesar son útiles para preparar datos sin procesar antes de realizar cualquier transformación. Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery.
Las zonas de datos sin procesar admiten la granularidad a nivel de bucket o de conjunto de datos para los permisos de lectura y escritura. No hay restricciones sobre el tipo de datos que se pueden almacenar en las zonas de datos sin procesar.
Zonas de datos seleccionados
Las zonas de datos seleccionados almacenan datos estructurados. Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery.
Los formatos compatibles con los buckets de Cloud Storage incluyen Parquet, Avro y ORC. Las zonas de datos seleccionados son útiles para preparar datos que requieren procesamiento antes de usarse para el análisis o para entregar datos que están listos para el análisis.
En el caso de las tablas de BigQuery, debes tener un esquema bien definido y particiones de estilo Hive. Cuando proporcionas un esquema para una tabla determinada en una zona de datos seleccionados, los datos deben cumplir con el esquema definido para la tabla sin desviación del esquema. Esto significa que los datos deben ser compatibles con el esquema definido para la tabla y que las particiones nuevas no deben tener un esquema que entre en conflicto con el esquema de la tabla.
Las zonas de datos seleccionados admiten la granularidad a nivel de bucket de Cloud Storage o de conjunto de datos de BigQuery para los permisos de lectura y escritura.
Antes de comenzar
Para agregar zonas a un lake, debes tener uno. Si aún no lo hiciste, crea un lake.
La mayoría de los comandos gcloud lake requieren una ubicación. Puedes especificar la ubicación configurando el parámetro --location.
Roles obligatorios
Para obtener el permiso que
necesitas para agregar una zona,
pídele a tu administrador que te otorgue el
rol de IAM Administrador de Dataplex (roles/dataplex.admin)
en tu proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el
dataplex.lakes.create
permiso,
que es necesario para
agregar una zona.
También puedes obtener este permiso con roles personalizados o otros roles predefinidos.
Agrega una zona
Puedes agregar varias zonas a tu lake. Puedes agregar una zona a la vez, pero seguir usando tu lake mientras se crea la zona.
Para agregar una zona a un lake existente, sigue estos pasos:
Console
En la Google Cloud consola de, ve a la página Lakes de Knowledge Catalog.
Haz clic en el nombre del lake al que deseas agregar una zona.
En la pestaña Zonas, haz clic en Agregar zona.
Ingresa un Nombre visible para tu zona.
Haz clic en el menú Tipo. Elige Zona de datos sin procesar o Zona de datos seleccionados. Obtén más información sobre los tipos de zonas compatibles.
Opcional: Ingresa una descripción.
En Ubicaciones de datos, selecciona Regional o Multirregional. Lo que elijas no se podrá cambiar más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.
Opcional: Habilita el descubrimiento de metadatos, que permite que Knowledge Catalog analice y extraiga metadatos de los datos de tu zona de forma automática:
Haz clic en Configuración de descubrimiento.
Asegúrate de que esté seleccionada la opción Habilitar el descubrimiento de metadatos.
Opcional: En Patrones de inclusión, enumera los archivos que se incluirán en los análisis de descubrimiento.
Opcional: En Patrones de exclusión, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresas patrones de inclusión y exclusión, se aplican primero los patrones de exclusión.
Haz clic en el menú Repeticiones y selecciona una frecuencia. Si seleccionas Personalizado, en el campo Programación, ingresa una programación de trabajos. De lo contrario, el valor de Programación se completará automáticamente.
Haz clic en el menú Zona horaria y selecciona una zona horaria.
Haz clic en Crear.
REST
Para agregar una zona, usa el lakes.zones.create.
La zona puede tardar unos minutos en crearse.
Cuando la creación de la zona se realiza con éxito, la zona ingresa automáticamente el estado activo. Si falla, el lake se revierte a su estado anterior.
Después de crear tu zona, puedes asignar datos almacenados en buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos a tu zona. Para obtener más información, consulta Agrega un recurso.
¿Qué sigue?
- Obtén más información para administrar buckets.
- Obtén más información para crear un lake.
- Obtén más información sobre Cloud Audit Logs.