Agrega una zona

En este documento, se describen las zonas de Knowledge Catalog (antes Dataplex Universal Catalog) y cómo agregarlas a tu lake de Knowledge Catalog.

Descripción general

Las zonas de Knowledge Catalog son entidades con nombre dentro de un lake de Knowledge Catalog. Son agrupaciones lógicas de datos no estructurados, semiestructurados y estructurados, que constan de varios recursos, como buckets de Cloud Storage, conjuntos de datos de BigQuery y tablas de BigQuery.

Un lake puede incluir una o más zonas. Si bien una zona solo puede formar parte de un lake, puede contener recursos que apuntan a recursos que forman parte de proyectos fuera de su proyecto superior.

Puedes seleccionar configuraciones para una zona en Knowledge Catalog. Hay dos tipos de zonas que puedes elegir: sin procesar y seleccionadas.

Zonas de datos sin procesar

Las zonas de datos sin procesar almacenan datos estructurados, datos semiestructurados, como archivos CSV y archivos JSON, y datos no estructurados en cualquier formato de fuentes externas. Las zonas de datos sin procesar son útiles para preparar datos sin procesar antes de realizar cualquier transformación. Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery.

Las zonas de datos sin procesar admiten la granularidad a nivel de bucket o de conjunto de datos para los permisos de lectura y escritura. No hay restricciones sobre el tipo de datos que se pueden almacenar en las zonas de datos sin procesar.

Zonas de datos seleccionados

Las zonas de datos seleccionados almacenan datos estructurados. Los datos se pueden almacenar en buckets de Cloud Storage o conjuntos de datos de BigQuery.

Los formatos compatibles con los buckets de Cloud Storage incluyen Parquet, Avro y ORC. Las zonas de datos seleccionados son útiles para preparar datos que requieren procesamiento antes de usarse para el análisis o para entregar datos que están listos para el análisis.

En el caso de las tablas de BigQuery, debes tener un esquema bien definido y particiones de estilo Hive. Cuando proporcionas un esquema para una tabla determinada en una zona de datos seleccionados, los datos deben cumplir con el esquema definido para la tabla sin desviación del esquema. Esto significa que los datos deben ser compatibles con el esquema definido para la tabla y que las particiones nuevas no deben tener un esquema que entre en conflicto con el esquema de la tabla.

Las zonas de datos seleccionados admiten la granularidad a nivel de bucket de Cloud Storage o de conjunto de datos de BigQuery para los permisos de lectura y escritura.

Antes de comenzar

Para agregar zonas a un lake, debes tener uno. Si aún no lo hiciste, crea un lake.

La mayoría de los comandos gcloud lake requieren una ubicación. Puedes especificar la ubicación configurando el parámetro --location.

Roles obligatorios

Para obtener el permiso que necesitas para agregar una zona, pídele a tu administrador que te otorgue el rol de IAM Administrador de Dataplex (roles/dataplex.admin) en tu proyecto. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene el dataplex.lakes.create permiso, que es necesario para agregar una zona.

También puedes obtener este permiso con roles personalizados o otros roles predefinidos.

Agrega una zona

Puedes agregar varias zonas a tu lake. Puedes agregar una zona a la vez, pero seguir usando tu lake mientras se crea la zona.

Para agregar una zona a un lake existente, sigue estos pasos:

Console

  1. En la Google Cloud consola de, ve a la página Lakes de Knowledge Catalog.

    Ir a Lakes

  2. Haz clic en el nombre del lake al que deseas agregar una zona.

  3. En la pestaña Zonas, haz clic en Agregar zona.

  4. Ingresa un Nombre visible para tu zona.

  5. Haz clic en el menú Tipo. Elige Zona de datos sin procesar o Zona de datos seleccionados. Obtén más información sobre los tipos de zonas compatibles.

  6. Opcional: Ingresa una descripción.

  7. En Ubicaciones de datos, selecciona Regional o Multirregional. Lo que elijas no se podrá cambiar más adelante. Los datos de una sola región y multirregionales no se pueden combinar en la misma zona.

  8. Opcional: Habilita el descubrimiento de metadatos, que permite que Knowledge Catalog analice y extraiga metadatos de los datos de tu zona de forma automática:

    1. Haz clic en Configuración de descubrimiento.

    2. Asegúrate de que esté seleccionada la opción Habilitar el descubrimiento de metadatos.

    3. Opcional: En Patrones de inclusión, enumera los archivos que se incluirán en los análisis de descubrimiento.

    4. Opcional: En Patrones de exclusión, enumera los archivos que se excluirán en los análisis de descubrimiento. Si ingresas patrones de inclusión y exclusión, se aplican primero los patrones de exclusión.

    5. Haz clic en el menú Repeticiones y selecciona una frecuencia. Si seleccionas Personalizado, en el campo Programación, ingresa una programación de trabajos. De lo contrario, el valor de Programación se completará automáticamente.

    6. Haz clic en el menú Zona horaria y selecciona una zona horaria.

  9. Haz clic en Crear.

REST

Para agregar una zona, usa el lakes.zones.create.

La zona puede tardar unos minutos en crearse.

Cuando la creación de la zona se realiza con éxito, la zona ingresa automáticamente el estado activo. Si falla, el lake se revierte a su estado anterior.

Después de crear tu zona, puedes asignar datos almacenados en buckets de Cloud Storage y conjuntos de datos de BigQuery como recursos a tu zona. Para obtener más información, consulta Agrega un recurso.

¿Qué sigue?