Puedes usar Dataplex Universal Catalog para crear una arquitectura de malla de datos. En esta guía de inicio rápido se explica cómo utilizar funciones de Dataplex Universal Catalog, como los lagos, las zonas y los recursos, para crear una malla de datos.
Una malla de datos es un enfoque organizativo y técnico que descentraliza la propiedad de los datos entre los propietarios de los datos del dominio. Estos propietarios proporcionan los datos como un producto de forma estándar y facilitan la comunicación entre las distintas partes de la organización para distribuir los conjuntos de datos en diferentes ubicaciones. Más información sobre las arquitecturas de malla de datos
Crear un dominio
En la Google Cloud consola, ve a la página Lagos de Dataplex Universal Catalog.
Haz clic en Crear para crear un lago, que actuará como tu malla de datos.
En el campo Nombre visible, introduce
My data mesh
.En Región, selecciona
us-central1
.Selecciona el servicio de Dataproc Metastore que has creado y configurado anteriormente como metastore asociado.
Haz clic en Crear.
Crear zonas en un lago
Después de crear un dominio creando un lago de Universal Catalog de Dataplex, puedes alojar contratos de datos gestionados y equipos individuales en el dominio mediante zonas. Hay dos tipos de zonas:
Las zonas sin procesar se suelen usar para almacenar datos en cualquier formato de fuentes externas en Cloud Storage. Las zonas sin procesar son útiles para los datos que requieren un procesamiento adicional antes de que estén listos para su consumo.
Las zonas de curación se usan para datos estructurados de Cloud Storage que deben cumplir determinados formatos de archivo y se organizan en un diseño de directorio compatible con Hive. Son más útiles para los datos que están listos para el consumo y el análisis.
Cada dominio (por ejemplo, sales
, customers
y products
) debe tener al menos una zona sin procesar y una zona seleccionada.
Las zonas adicionales se usan para gestionar contratos de datos entre equipos o para proporcionar un desglose más detallado de los equipos de un dominio concreto. Por ejemplo, la gestión del inventario en el dominio del producto. Los propietarios de los datos pueden gestionar los datos de su dominio y acceder a ellos.
En la Google Cloud consola, ve a la vista Gestionar de Dataplex Universal Catalog.
Haz clic en el nombre del lago (
My data mesh
) al que quieras añadir una zona.En la pestaña Zonas, haz clic en
Añadir zona.En el campo Nombre visible, introduce
My sub domain
. Dataplex Universal Catalog genera automáticamente un ID para tu zona.En Type (Tipo), selecciona Raw zone (Zona sin procesar).
Haz clic en Crear.
Adjuntar recursos a tus zonas
Adjunta recursos de datos a tu zona. Un recurso de datos, que son los recursos de almacenamiento que contienen tus datos, puede ser un segmento de Cloud Storage o un conjunto de datos de BigQuery. Este es el último paso para crear tu arquitectura de malla de datos.
En la vista Gestionar de Dataplex Universal Catalog, haz clic en el lago que has creado (
My data mesh
).En la pestaña Zonas, haga clic en la zona (
My sub domain
) a la que quiera añadir el recurso.En la pestaña Recursos, haga clic en
Añadir recursos.Haz clic en Añadir un recurso.
En Type (Tipo), selecciona Cloud Storage bucket (Segmento de Cloud Storage).
En el campo Nombre visible , introduce
Data mesh asset
. Dataplex Universal Catalog genera automáticamente un ID de recurso.En el campo Bucket (Contenedor), haz clic en Browse (Explorar).
- Selecciona tu contenedor en la lista.
- Haz clic en Seleccionar.
Haz clic en Hecho y, a continuación, en Continuar.
Haz clic en Continuar para aceptar la Configuración avanzada predeterminada.
Haz clic en Enviar.