Creare un mesh di dati

Puoi utilizzare Knowledge Catalog (in precedenza Dataplex Universal Catalog) per creare un'architettura a mesh di dati. Questa guida rapida mostra come utilizzare le funzionalità di Knowledge Catalog, come lake, zone e asset, per creare un mesh di dati.

Un mesh di dati è un approccio organizzativo e tecnico che decentralizza la proprietà dei dati tra i proprietari dei dati del dominio. Questi proprietari forniscono i dati come prodotto in modo standard e facilitano la comunicazione tra diverse parti dell'organizzazione per distribuire i set di dati in diverse località. Scopri di più sulle architetture a mesh di dati.

Obiettivi

In questa guida, utilizzerai le entità di Knowledge Catalog per creare un'architettura a mesh di dati:

  • Crea un lake di Knowledge Catalog che funga da dominio per il tuo mesh di dati.
  • Aggiungi zone al lake che rappresentano i singoli team all'interno di ogni dominio e fornisci contratti di dati gestiti.
  • Collega gli asset che eseguono il mapping ai dati archiviati in Cloud Storage.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi Google Cloud utenti potrebbero avere diritto a una prova senza costi.

Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per saperne di più, consulta Esegui la pulizia.

Prima di iniziare

  1. Nella Google Cloud console, nella pagina di selezione del progetto, seleziona o crea un Google Cloud progetto.

    Ruoli richiesti per selezionare o creare un progetto

    • Seleziona un progetto: la selezione di un progetto non richiede un ruolo IAM specifico. Puoi selezionare qualsiasi progetto su cui ti è stato concesso un ruolo.
    • Crea un progetto: per creare un progetto, devi disporre del ruolo Autore progetto (roles/resourcemanager.projectCreator), che contiene l' resourcemanager.projects.create autorizzazione. Scopri come concedere i ruoli.

    Vai al selettore di progetti

  2. Verifica che la fatturazione sia abilitata per il tuo Google Cloud progetto.

  3. Abilitare l'API Dataplex.

    Ruoli richiesti per abilitare le API

    Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

    Abilitare l'API

  4. Crea un servizio Dataproc Metastore.

Crea un bucket Cloud Storage

Ti serve un bucket Cloud Storage per archiviare gli asset di dati del tuo mesh di dati.

Per creare un bucket Cloud Storage, segui le istruzioni riportate in Creare un bucket Cloud Storage. Quando lo fai, tieni presente quanto segue:

  • Assegna un nome al bucket.
  • In Tipo di località, scegli Regione e seleziona us-central1 (Iowa) dal menu.

Crea un dominio

  1. Nella Google Cloud console, vai alla pagina Lake di Knowledge Catalog.

    Vai a Lake

  2. Fai clic su Crea per creare un nuovo lake, che funge da mesh di dati.

  3. Nel campo Nome visualizzato, inserisci My data mesh.

  4. In Regione, seleziona us-central1.

  5. Seleziona il servizio Dataproc Metastore che hai creato e configurato in precedenza come metastore associato.

  6. Fai clic su Crea.

Crea zone nel lake

Dopo aver creato un dominio creando un lake di Knowledge Catalog, puoi ospitare contratti di dati gestiti e singoli team all'interno del dominio utilizzando le zone. Esistono due tipi di zone:

  • Le zone non elaborate vengono in genere utilizzate per archiviare i dati in qualsiasi formato da origini esterne in Cloud Storage. Le zone non elaborate sono utili per i dati che richiedono un'ulteriore elaborazione prima di essere pronti per il consumo.

  • Le zone curate vengono utilizzate per i dati strutturati in Cloud Storage che devono essere conformi a determinati formati di file e sono organizzati in un layout di directory compatibile con Hive. Sono più utili per i dati pronti per il consumo e l'analisi.

Ogni dominio (ad esempio, sales, customers, products) deve avere almeno una zona grezza e una zona curata.

Le zone aggiuntive vengono utilizzate per gestire i contratti di dati tra i team o per fornire una suddivisione più granulare per i team all'interno di un determinato dominio. Ad esempio, la gestione dell'inventario all'interno del dominio del prodotto. I proprietari dei dati possono gestire i dati all'interno del proprio dominio e accedervi.

  1. Nella Google Cloud console, vai alla visualizzazione Gestisci di Knowledge Catalog.

  2. Fai clic sul nome del lake (My data mesh) a cui vuoi aggiungere una zona.

  3. Nella scheda Zone, fai clic su Aggiungi zona.

  4. Nel campo Nome visualizzato, inserisci My sub domain. Knowledge Catalog genera automaticamente un ID per la zona.

  5. In Tipo, seleziona Zona grezza.

  6. Fai clic su Crea.

Collega gli asset alle zone

Collega gli asset di dati alla zona. Un asset di dati, le risorse di archiviazione che contengono i dati, può essere un bucket Cloud Storage o un set di dati BigQuery. Questo è l'ultimo passaggio per la creazione dell'architettura a mesh di dati.

  1. Nella visualizzazione Gestisci di Knowledge Catalog, fai clic sul lake che hai creato (My data mesh).

  2. Nella scheda Zone, fai clic sulla zona (My sub domain) a cui aggiungere l'asset.

  3. Nella scheda Asset, fai clic su Aggiungi asset

  4. Fai clic su Aggiungi un asset.

  5. In Tipo, seleziona Bucket Cloud Storage.

  6. Nel campo Nome visualizzato , inserisci Data mesh asset. Knowledge Catalog genera automaticamente un ID risorsa.

  7. Nel campo Bucket, fai clic su Sfoglia.

    1. Seleziona il bucket dall'elenco.
    2. Fai clic su Seleziona.
  8. Fai clic su Fine e poi su Continua.

  9. Fai clic su Continua per accettare le Impostazioni avanzate predefinite.

  10. Fai clic su Invia.

Libera spazio

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Elimina il progetto

  1. Nella Google Cloud console, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID progetto e fai clic su Chiudi per eliminare il progetto.

Elimina l'architettura a mesh di dati

  1. Nella Google Cloud console, vai alla visualizzazione Gestisci di Knowledge Catalog.

  2. Per il lake che vuoi eliminare, fai clic su Visualizza altro e poi su Elimina.

  3. Per confermare l'azione, inserisci delete e fai clic su Elimina lake.

Passaggi successivi