Puoi utilizzare Dataplex Universal Catalog per creare un'architettura a mesh di dati. Questa guida rapida mostra come utilizzare le funzionalità di Dataplex Universal Catalog, come lake, zone e asset, per creare un mesh di dati.
Un data mesh è un approccio organizzativo e tecnico che decentralizza la proprietà dei dati tra i proprietari dei dati del dominio. Questi proprietari forniscono i dati come prodotto in modo standard e facilitano la comunicazione tra le diverse parti dell'organizzazione per distribuire i set di dati in diverse località. Scopri di più sulle architetture data mesh.
Crea un dominio
Nella console Google Cloud , vai alla pagina Lake di Dataplex Universal Catalog.
Fai clic su Crea per creare un nuovo lake, che funge da data mesh.
Nel campo Nome visualizzato, inserisci
My data mesh
.In Regione, seleziona
us-central1
.Seleziona il servizio Dataproc Metastore che hai creato e configurato in precedenza come metastore associato.
Fai clic su Crea.
Crea zone nel lake
Dopo aver creato un dominio creando un lake Dataplex Universal Catalog, puoi ospitare contratti di dati gestiti e singoli team all'interno del dominio utilizzando le zone. Esistono due tipi di zone:
Le zone non elaborate vengono in genere utilizzate per archiviare i dati in qualsiasi formato da origini esterne in Cloud Storage. Le zone non elaborate sono utili per i dati che richiedono un'ulteriore elaborazione prima di essere pronti per il consumo.
Le zone curate vengono utilizzate per i dati strutturati in Cloud Storage che devono essere conformi a determinati formati di file e sono organizzati in un layout di directory compatibile con Hive. Sono più utili per i dati pronti per il consumo e l'analisi.
Ogni dominio (ad esempio sales
, customers
, products
) deve avere almeno
una zona non elaborata e una zona curata.
Le zone aggiuntive vengono utilizzate per gestire i contratti di dati tra i team o per fornire una suddivisione più granulare per i team all'interno di un determinato dominio. Ad esempio, la gestione dell'inventario all'interno del dominio prodotto. I proprietari dei dati possono gestire i dati all'interno del proprio dominio e accedervi.
Nella console Google Cloud , vai alla visualizzazione Gestisci di Dataplex Universal Catalog.
Fai clic sul nome del lago (
My data mesh
) a cui vuoi aggiungere una zona.Nella scheda Zone, fai clic su
Aggiungi zona.Nel campo Nome visualizzato, inserisci
My sub domain
. Dataplex Universal Catalog genera automaticamente un ID per la zona.Per Tipo, seleziona Zona non elaborata.
Fai clic su Crea.
Collegare asset alle zone
Collega gli asset di dati alla zona. Un asset di dati, le risorse di archiviazione che contengono i tuoi dati, può essere un bucket Cloud Storage o un set di dati BigQuery. Questo è il passaggio finale per la creazione dell'architettura data mesh.
Nella visualizzazione Gestisci di Dataplex Universal Catalog, fai clic sul lake che hai creato (
My data mesh
).Nella scheda Zone, fai clic sulla zona (
My sub domain
) a cui aggiungere l'asset.Nella scheda Asset, fai clic su
Aggiungi asset.Fai clic su Aggiungi un asset.
Per Tipo, seleziona Bucket Cloud Storage.
Nel campo Nome visualizzato , inserisci
Data mesh asset
. Dataplex Universal Catalog genera automaticamente un ID risorsa.Nel campo Bucket, fai clic su Sfoglia.
- Seleziona il bucket dall'elenco.
- Fai clic su Seleziona.
Fai clic su Fine e poi su Continua.
Fai clic su Continua per accettare le impostazioni avanzate predefinite.
Fai clic su Invia.