Puedes usar Dataplex Universal Catalog para crear una arquitectura de malla de datos. En este inicio rápido, se muestra cómo usar las funciones de Dataplex Universal Catalog, como un lake, zonas y recursos, para compilar una malla de datos.
Una malla de datos es un enfoque organizacional y técnico que descentraliza la propiedad de los datos entre los propietarios de datos de dominios. Estos propietarios proporcionan los datos como un producto de forma estándar y facilitan la comunicación entre las diferentes partes de la organización para distribuir los conjuntos de datos en diferentes ubicaciones. Obtén más información sobre las arquitecturas de malla de datos.
Objetivos
En esta guía, usarás las entidades de Dataplex Universal Catalog para compilar una arquitectura de malla de datos:
- Crea un lake de Dataplex Universal Catalog que actúe como el dominio de tu malla de datos.
- Agrega zonas a tu lake que representen a los equipos individuales dentro de cada dominio y proporciona contratos de datos administrados.
- Adjunta recursos que se asignen a los datos almacenados en Cloud Storage.
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
Para generar una estimación de costos en función del uso previsto,
usa la calculadora de precios.
Cuando completes las tareas que se describen en este documento, podrás borrar los recursos que creaste para evitar que se te siga facturando. Para obtener más información, consulta Realiza una limpieza.
Antes de comenzar
-
En la consola de Google Cloud , en la página del selector de proyectos, selecciona o crea un proyecto de Google Cloud .
Roles necesarios para seleccionar o crear un proyecto
- Selecciona un proyecto: Para seleccionar un proyecto, no se requiere un rol de IAM específico. Puedes seleccionar cualquier proyecto en el que se te haya otorgado un rol.
-
Crear un proyecto: Para crear un proyecto, necesitas el rol de Creador de proyectos (
roles/resourcemanager.projectCreator), que contiene el permisoresourcemanager.projects.create. Obtén más información para otorgar roles.
-
Verifica que la facturación esté habilitada para tu proyecto de Google Cloud .
-
Habilitar la API de Dataplex
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (
roles/serviceusage.serviceUsageAdmin), que contiene el permisoserviceusage.services.enable. Obtén más información para otorgar roles.
Cree un bucket de Cloud Storage
Necesitas un bucket de Cloud Storage para almacenar los recursos de datos de tu malla de datos.
Para crear un bucket de Cloud Storage, sigue las instrucciones en cómo crear un bucket de Cloud Storage. Cuando lo hagas, ten en cuenta lo siguiente:
- Asigna un nombre a tu bucket.
- En Tipo de ubicación, elige Región y selecciona us-central1 (Iowa) en el menú.
Crea un dominio
En la consola de Google Cloud , ve a la página Lakes de Dataplex Universal Catalog.
Haz clic en Crear para crear un nuevo lago, que actuará como tu malla de datos.
En el campo Nombre visible, escribe
My data meshEn Región, selecciona
us-central1.Selecciona el servicio de Dataproc Metastore que creaste y configuraste anteriormente como el metastore asociado.
Haz clic en Crear.
Crea zonas en tu lake
Después de crear un dominio a través de la creación de un lake de Dataplex Universal Catalog, puedes alojar contratos de datos administrados y equipos individuales dentro del dominio con zonas. Existen dos tipos de zonas:
Por lo general, las zonas sin procesar se usan para almacenar datos en cualquier formato desde fuentes externas en Cloud Storage. Las zonas sin procesar son útiles para los datos que requieren procesamiento adicional antes de estar listos para el consumo.
Las zonas seleccionadas se usan para los datos estructurados en Cloud Storage que deben cumplir con ciertos formatos de archivo y organizarse en un diseño de directorio compatible con Hive. Son más útiles para los datos que están listos para el consumo y el análisis.
Cada dominio (por ejemplo, sales, customers, products) debe tener al menos una zona sin procesar y una zona seleccionada.
Las zonas adicionales se usan para administrar contratos de datos entre equipos o para proporcionar un desglose más detallado para los equipos dentro de un dominio determinado. Por ejemplo, la administración de inventario dentro del dominio del producto. Los propietarios de los datos pueden administrarlos dentro de su dominio y acceder a ellos.
En la consola de Google Cloud , navega a la vista Administrar de Dataplex Universal Catalog.
Haz clic en el nombre del lake (
My data mesh) al que deseas agregar una zona.En la pestaña Zonas, haz clic en Agregar zona.
En el campo Nombre visible, escribe
My sub domainDataplex Universal Catalog genera automáticamente un ID para tu zona.En Tipo, selecciona Zona sin procesar.
Haz clic en Crear.
Conecta recursos a tus zonas
Conecta recursos de datos a tu zona. Un recurso de datos, es decir, los recursos de almacenamiento que contienen tus datos, puede ser un bucket de Cloud Storage o un conjunto de datos de BigQuery. Este es el último paso para crear tu arquitectura de malla de datos.
En la vista Administrar de Dataplex Universal Catalog, haz clic en el lake que creaste (
My data mesh).En la pestaña Zonas, haz clic en la zona (
My sub domain) a la que deseas agregar el recurso.En la pestaña Recursos, haz clic en Agregar recursos.
Haz clic en Agregar un recurso.
En Tipo, selecciona Bucket de Cloud Storage.
En el campo Nombre visible , ingresa
Data mesh asset. Dataplex Universal Catalog genera automáticamente un ID de recurso.En el campo Bucket, haz clic en Explorar.
- Selecciona tu bucket de la lista.
- Haz clic en Seleccionar.
Haz clic en Listo y, luego, en Continuar.
Haz clic en Continuar para aceptar la Configuración avanzada predeterminada.
Haz clic en Enviar.
Realiza una limpieza
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
Borra el proyecto
- En la Google Cloud consola, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra tu arquitectura de malla de datos
En la consola de Google Cloud , navega a la vista Administrar de Dataplex Universal Catalog.
En el lago que deseas borrar, haz clic en Ver más y, luego, en Borrar.
Para confirmar la acción, ingresa
deletey haz clic en Borrar lake.
¿Qué sigue?
- Obtén información sobre las tareas de procesamiento de datos
- Obtén información para descubrir datos
- Obtén información para usar tareas de calidad de los datos