Crea una governance dei dati di base

Probabilmente ti sarai chiesto: "Che cosa significa questo nome di colonna?" "Chi è il proprietario di questo set di dati danneggiato?" o "Questa tabella è approvata per l'uso?" Alcuni cataloghi di dati utilizzano tag non strutturati per aggiungere queste informazioni, ma i tag diventano rapidamente obsoleti o incoerenti. Knowledge Catalog (in precedenza Dataplex Universal Catalog) evita questo problema consentendoti di allegare metadati strutturati e basati su schema e definizioni aziendali chiare direttamente ai tuoi asset di dati. Questo approccio ti aiuta a creare una governance programmatica su larga scala.

Questo tutorial mostra come iniziare a utilizzare la governance dei dati in Knowledge Catalog. Progettato per data engineer, amministratori di database e architetti dei dati, questo tutorial illustra i passaggi manuali dell'interfaccia utente per aiutarti a creare un modello mentale solido prima di automatizzare questi workflow. Chiara le relazioni tra i principali concetti di Knowledge Catalog. Al termine, saprai come rendere i tuoi dati rilevabili e affidabili.

Obiettivi

In questo tutorial imparerai a:

  • Crea un'unica fonte attendibile per i termini aziendali con un glossario aziendale.
  • Struttura e organizzazione dei metadati con i tipi di aspetto.
  • Collega i metadati ai tuoi asset con gli aspetti.
  • Utilizza la ricerca di Knowledge Catalog per trovare esattamente ciò che ti serve utilizzando questi nuovi metadati strutturati.

Prima di iniziare

Prima di iniziare, segui questi passaggi:

Configura l'ambiente

Questo tutorial utilizza Cloud Shell, un ambiente a riga di comando in esecuzione nel cloud.

  1. Nella console Google Cloud , fai clic su Attiva Cloud Shell nella barra degli strumenti in alto a destra. Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente.

  2. In Cloud Shell, imposta le variabili PROJECT_ID e LOCATION in modo che tutti i comandi futuri abbiano come target il tuo progetto Google Cloud specifico.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Attiva i Google Cloud servizi necessari.

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Crea un set di dati BigQuery e prepara i dati di esempio

Utilizza il seguente codice per creare un set di dati BigQuery e caricare alcune transazioni CSV di esempio in una tabella. Dopo aver creato la tabella, Knowledge Catalog la rileva automaticamente e crea una voce nel catalogo.

Considera una voce come la rappresentazione di un asset di dati in Knowledge Catalog. È come un record nel catalogo a cui puoi collegare i metadati di governance. Anziché governare direttamente la tabella BigQuery, governi la relativa voce in Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Esegui una query SELECT per verificare la configurazione:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Output di esempio:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Definisci termini comuni con un glossario aziendale

Una buona governance si basa su definizioni chiare. Ad esempio, uno sviluppatore non dovrebbe dover indovinare se una colonna denominata gmv indica il valore lordo della merce o se include tasse o resi. Un glossario aziendale risolve questo problema creando un'unica fonte attendibile che separa le definizioni aziendali dai dettagli tecnici. In questo modo, termini come Ricavi lordi di vendita hanno lo stesso significato per tutti, dal team di vendita a quello finanziario.

Segui questi passaggi per creare un glossario e definire il primo termine:

  1. Nella console Google Cloud , vai alla pagina Glossari di Knowledge Catalog.

    Vai a Glossari

  2. Fai clic su Crea glossario aziendale.

  3. Inserisci i seguenti dettagli:

    • Nome visualizzato: Retail Business Glossary
    • Località: us-central1 (Iowa)
  4. Fai clic su Crea.

  5. Fai clic su Crea categoria.

  6. Assegna un nome alla categoria Sales Metrics e fai clic su Crea.

  7. Seleziona la categoria Metriche di vendita e fai clic su Aggiungi termine.

  8. Assegna al termine il nome Gross Merchandise Value e fai clic su Crea.

  9. Fai clic sul termine Valore lordo della merce per aprire la relativa pagina dei dettagli.

  10. Fai clic su Aggiungi accanto a Panoramica. Inserisci i seguenti dettagli: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Fai clic su Salva.

Ora hai creato un termine del glossario che puoi collegare agli asset di dati della tua organizzazione.

Definisci i metadati tecnici con un tipo di aspetto

Se devi monitorare chi è il proprietario di una determinata risorsa dati, le coppie chiave-valore non sono sufficienti. Non vuoi che una tabella sia taggata owner:bob e un'altra contact:alice@example.com. Vuoi uno schema strutturato che richieda che le informazioni del proprietario siano in un formato email valido.

Per soddisfare questa esigenza, Knowledge Catalog supporta i tipi di aspetto. Un tipo di aspetto è come un progetto per i metadati che consente di impostare regole chiare e campi obbligatori. In questo modo, i metadati che aggiungerai in un secondo momento rimarranno organizzati.

  1. Nella console Google Cloud , vai alla scheda Tipi di aspetti nella pagina Tipi di metadati di Knowledge Catalog.

    Vai a Tipi di aspetto

  2. Nella scheda Personalizzata, fai clic su Crea.

  3. Inserisci i seguenti dettagli:

    • Nome visualizzato: Data Asset Governance
    • Località: us-central1 (Iowa)
  4. Nella sezione Modello, fai clic su Aggiungi campo per creare i seguenti tre campi:

    • Campo 1:

      • Nome visualizzato: Data Steward
      • Tipo: Text
      • Obbligatorio: seleziona la casella di controllo.
      • Tipo di testo: Plain text
    • Campo 2 (fai clic su Aggiungi campo):

      • Nome visualizzato: Data Sensitivity
      • Tipo: Enum
      • Is Required (Obbligatorio): lascia l'opzione facoltativa.
      • Valori: aggiungi Public, Internal e Confidential
    • Campo 3 (fai clic su Aggiungi un campo):

      • Nome visualizzato: Last Review Date
      • Is Required (Obbligatorio): lascia l'opzione facoltativa.
      • Tipo: Date and time
  5. Fai clic su Salva.

Ora hai un tipo di aspetto per i campi di metadati correlati alla governance, come responsabile dei dati, livello di sensibilità e data di revisione. Nella sezione successiva, applichi questo schema a una voce della tabella collegando un aspetto con valori specifici per questi campi.

Arricchire una voce con i metadati di governance

I nomi delle colonne sono spesso abbreviati o ambigui. Il collegamento di una colonna a un termine nel glossario aziendale fornisce una definizione chiara e coerente. In questo passaggio, arricchisci la voce per la tabella retail_data.transactions collegando il termine Gross Merchandise Value a una colonna denominata gmv e utilizzando il tipo di aspetto per collegare un aspetto alla voce della tabella.

Per chiarire il significato della colonna gmv in retail_data.transactions, collegala al termine Gross Merchandise Value.

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. Fai clic su Filtri per aprire il riquadro Filtri.

  3. In Ambito, seleziona Progetto attuale.

  4. Cerca retail_data.transactions e fai clic sulla tabella delle transazioni restituite.

  5. Fai clic sulla scheda Schema.

  6. Seleziona la casella di controllo accanto alla colonna gmv e fai clic su Aggiungi termine aziendale.

  7. Seleziona Gross Merchandise Value.

Allegare un aspetto alla voce della tabella

Oltre a collegare i termini aziendali alle colonne, puoi allegare un aspetto a una voce della tabella per acquisire i metadati di governance a livello di tabella, come la proprietà e la sensibilità dei dati.

Un aspetto è un'istanza di un tipo di aspetto, contenente valori specifici per i campi dei metadati. Quando colleghi un aspetto a una voce, Knowledge Catalog confronta le informazioni che fornisci con lo schema definito nel tipo di aspetto per garantire la coerenza.

Per definire la proprietà e la sensibilità della tabella retail_data.transactions, associa l'aspetto Data Asset Governance:

  1. Nella scheda Dettagli della pagina di inserimento di retail_data.transactions, fai clic su Aggiungi accanto ad Aspetti facoltativi.
  2. Seleziona Data Asset Governance dall'elenco.
  3. Inserisci i valori nei campi:

    • Data Steward: finance-team@example.com
    • Sensibilità dei dati:seleziona Interna.
    • Data dell'ultima revisione:seleziona la data odierna.
  4. Fai clic su Salva.

Ora hai creato una base solida per la governance dei dati in Knowledge Catalog.

Cerca voci utilizzando i metadati arricchiti

Hai arricchito la voce retail_data.transactions collegando una colonna a un termine aziendale e allegando un aspetto. Ora puoi utilizzare la ricerca di Knowledge Catalog per trovare voci in base a questi contesti aziendali. Ad esempio, puoi trovare tutte le risorse con un livello di sensibilità specifico o cercare il termine del glossario per scoprire le tabelle sottostanti.

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. Fai clic su Filtri per aprire il riquadro Filtri.

  3. In Ambito, seleziona Progetto attuale.

  4. Nella barra di ricerca, inserisci Find tables where the Data Asset Governance aspect has Internal sensitivity..

  5. Dovresti vedere la tabella retail_data.transactions nell'elenco dei risultati.

  6. Cancella la barra di ricerca e inserisci Find tables with the Gross Merchandise Value term attached.

  7. Dovresti visualizzare di nuovo la tabella retail_data.transactions nei risultati, poiché la colonna gmv è collegata direttamente a questo termine commerciale.

Esegui la pulizia

Per evitare addebiti, elimina le risorse che hai creato in questo tutorial.

Elimina il set di dati di esempio

Per eliminare il set di dati BigQuery di esempio e tutte le relative tabelle, utilizza il seguente comando. L'operazione è irreversibile.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Elimina gli artefatti di Knowledge Catalog

  1. Nella console Google Cloud , vai alla scheda Tipi di aspetti nella pagina Tipi di metadati di Knowledge Catalog.

    Vai a Tipi di aspetto

  2. Seleziona il tipo di aspetto data_asset_governance e fai clic su Elimina.

  3. Nella console Google Cloud , vai alla pagina Glossari di Knowledge Catalog.

    Vai a Glossari

  4. Seleziona il termine Gross Merchandise Value e fai clic su Elimina.

  5. Seleziona la categoria Sales Metrics e fai clic su Elimina.

  6. Seleziona Retail Business Glossary e fai clic su Elimina.

Passaggi successivi