Acerca de los lakes y las zonas

Las empresas tienen datos que, a menudo, se distribuyen en data lakes, almacenes de datos y data marts. Knowledge Catalog (antes Dataplex Universal Catalog) es un tejido de datos que unifica los datos distribuidos y facilita la administración de datos mediante la aplicación de construcciones lógicas a diferentes recursos de datos.

Knowledge Catalog abstrae los sistemas de almacenamiento de datos subyacentes mediante las siguientes construcciones: lakes, zonas, recursos y entradas.

Lakes

Un lake es una construcción lógica que representa un dominio de datos o una unidad de negocios. Por ejemplo, para organizar los datos según el uso del grupo, puedes configurar un lake para cada departamento (por ejemplo, comercio minorista, ventas, finanzas).

Zonas

Una zona es un subdominio dentro de un lake, que es útil para categorizar los datos de la siguiente manera:

  • Etapa: Por ejemplo, landing, sin procesar, análisis de datos seleccionados y ciencia de datos seleccionada
  • Uso: Por ejemplo, contrato de datos
  • Restricciones: Por ejemplo, controles de seguridad y niveles de acceso de los usuarios

Existen dos tipos de zonas:

  • Zona sin procesar: Contiene datos en su formato sin procesar y no está sujeta a verificaciones estrictas de tipos.

  • Zona seleccionada: Contiene datos limpios, con formato y listos para el análisis. Los datos son tabulares, con partición de Hive y se almacenan en archivos Parquet, Avro, Orc o tablas de BigQuery. Los datos se someten a una verificación de tipos, por ejemplo, para prohibir el uso de archivos CSV porque no funcionan tan bien para el acceso a SQL.

Recursos

Un recurso se asigna a los datos almacenados en Cloud Storage o BigQuery. Puedes asignar datos almacenados en proyectos separados como recursos en una sola zona. Google Cloud

Entradas

Una entidad representa metadatos para datos estructurados y semiestructurados (por ejemplo, una tabla) y datos no estructurados (por ejemplo, un conjunto de archivos).

¿Qué sigue?