Probabilmente ti sarai chiesto: "Che cosa significa questo nome di colonna?" "Chi è il proprietario di questo set di dati danneggiato?" o "Questa tabella è approvata per l'uso?" Alcuni cataloghi di dati utilizzano tag non strutturati per aggiungere queste informazioni, ma i tag diventano rapidamente obsoleti o incoerenti. Knowledge Catalog (in precedenza Dataplex Universal Catalog) evita questo problema consentendoti di allegare metadati strutturati e basati su schema e definizioni aziendali chiare direttamente ai tuoi asset di dati. Questo approccio ti aiuta a creare una governance programmatica su larga scala.
Questo tutorial mostra come iniziare a utilizzare la governance dei dati in Knowledge Catalog. Progettato per data engineer, amministratori di database e architetti dei dati, questo tutorial illustra i passaggi manuali dell'interfaccia utente per aiutarti a creare un modello mentale solido prima di automatizzare questi workflow. Chiara le relazioni tra i principali concetti di Knowledge Catalog. Al termine, saprai come rendere i tuoi dati rilevabili e affidabili.
Obiettivi
In questo tutorial imparerai a:
- Crea un'unica fonte attendibile per i termini aziendali con un glossario aziendale.
- Struttura e organizzazione dei metadati con i tipi di aspetto.
- Collega i metadati ai tuoi asset con gli aspetti.
- Utilizza la ricerca di Knowledge Catalog per trovare esattamente ciò che ti serve utilizzando questi nuovi metadati strutturati.
Prima di iniziare
Prima di iniziare, segui questi passaggi:
- Seleziona un Google Cloud progetto per questo tutorial.
- Verifica che la fatturazione sia attivata per il tuo progetto.
Configura l'ambiente
Questo tutorial utilizza Cloud Shell, un ambiente a riga di comando in esecuzione nel cloud.
Nella console Google Cloud , fai clic su Attiva Cloud Shell nella barra degli strumenti in alto a destra. Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente.
In Cloud Shell, imposta le variabili
PROJECT_IDeLOCATIONin modo che tutti i comandi futuri abbiano come target il tuo progetto Google Cloud specifico.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Attiva i Google Cloud servizi necessari.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Crea un set di dati BigQuery e prepara i dati di esempio
Utilizza il seguente codice per creare un set di dati BigQuery e caricare alcune transazioni CSV di esempio in una tabella. Dopo aver creato la tabella, Knowledge Catalog la rileva automaticamente e crea una voce nel catalogo.
Considera una voce come la rappresentazione di un asset di dati in Knowledge Catalog. È come un record nel catalogo a cui puoi collegare i metadati di governance. Anziché governare direttamente la tabella BigQuery, governi la relativa voce in Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Esegui una query SELECT per verificare la configurazione:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Output di esempio:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Definisci termini comuni con un glossario aziendale
Una buona governance si basa su definizioni chiare. Ad esempio, uno sviluppatore non dovrebbe dover indovinare se una colonna denominata gmv indica il valore lordo della merce o se include tasse o resi. Un glossario aziendale risolve questo problema creando un'unica fonte attendibile che separa le definizioni aziendali dai dettagli tecnici. In questo modo, termini come Ricavi lordi di vendita hanno lo stesso significato per tutti, dal team di vendita a quello finanziario.
Segui questi passaggi per creare un glossario e definire il primo termine:
Nella console Google Cloud , vai alla pagina Glossari di Knowledge Catalog.
Fai clic su Crea glossario aziendale.
Inserisci i seguenti dettagli:
- Nome visualizzato:
Retail Business Glossary - Località:
us-central1 (Iowa)
- Nome visualizzato:
Fai clic su Crea.
Fai clic su Crea categoria.
Assegna un nome alla categoria
Sales Metricse fai clic su Crea.Seleziona la categoria Metriche di vendita e fai clic su Aggiungi termine.
Assegna al termine il nome
Gross Merchandise Valuee fai clic su Crea.Fai clic sul termine Valore lordo della merce per aprire la relativa pagina dei dettagli.
Fai clic su Aggiungi accanto a Panoramica. Inserisci i seguenti dettagli:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Fai clic su Salva.
Ora hai creato un termine del glossario che puoi collegare agli asset di dati della tua organizzazione.
Definisci i metadati tecnici con un tipo di aspetto
Se devi monitorare chi è il proprietario di una determinata risorsa dati, le coppie chiave-valore non sono sufficienti. Non vuoi che una tabella sia taggata owner:bob e un'altra contact:alice@example.com. Vuoi uno schema strutturato che richieda che le informazioni del proprietario siano in un formato email valido.
Per soddisfare questa esigenza, Knowledge Catalog supporta i tipi di aspetto. Un tipo di aspetto è come un progetto per i metadati che consente di impostare regole chiare e campi obbligatori. In questo modo, i metadati che aggiungerai in un secondo momento rimarranno organizzati.
Nella console Google Cloud , vai alla scheda Tipi di aspetti nella pagina Tipi di metadati di Knowledge Catalog.
Nella scheda Personalizzata, fai clic su Crea.
Inserisci i seguenti dettagli:
- Nome visualizzato:
Data Asset Governance - Località:
us-central1 (Iowa)
- Nome visualizzato:
Nella sezione Modello, fai clic su Aggiungi campo per creare i seguenti tre campi:
Campo 1:
- Nome visualizzato:
Data Steward - Tipo:
Text - Obbligatorio: seleziona la casella di controllo.
- Tipo di testo:
Plain text
- Nome visualizzato:
Campo 2 (fai clic su Aggiungi campo):
- Nome visualizzato:
Data Sensitivity - Tipo:
Enum - Is Required (Obbligatorio): lascia l'opzione facoltativa.
- Valori: aggiungi
Public,InternaleConfidential
- Nome visualizzato:
Campo 3 (fai clic su Aggiungi un campo):
- Nome visualizzato:
Last Review Date - Is Required (Obbligatorio): lascia l'opzione facoltativa.
- Tipo:
Date and time
- Nome visualizzato:
Fai clic su Salva.
Ora hai un tipo di aspetto per i campi di metadati correlati alla governance, come responsabile dei dati, livello di sensibilità e data di revisione. Nella sezione successiva, applichi questo schema a una voce della tabella collegando un aspetto con valori specifici per questi campi.
Arricchire una voce con i metadati di governance
I nomi delle colonne sono spesso abbreviati o ambigui. Il collegamento di una colonna a un termine nel glossario aziendale fornisce una definizione chiara e coerente. In questo passaggio, arricchisci la voce per la tabella retail_data.transactions collegando il termine Gross Merchandise Value a una colonna denominata gmv e utilizzando il tipo di aspetto per collegare un aspetto alla voce della tabella.
Collegare una colonna a un termine aziendale
Per chiarire il significato della colonna gmv in retail_data.transactions, collegala al termine Gross Merchandise Value.
Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.
Fai clic su Filtri per aprire il riquadro Filtri.
In Ambito, seleziona Progetto attuale.
Cerca
retail_data.transactionse fai clic sulla tabella delle transazioni restituite.Fai clic sulla scheda Schema.
Seleziona la casella di controllo accanto alla colonna
gmve fai clic su Aggiungi termine aziendale.Seleziona
Gross Merchandise Value.
Allegare un aspetto alla voce della tabella
Oltre a collegare i termini aziendali alle colonne, puoi allegare un aspetto a una voce della tabella per acquisire i metadati di governance a livello di tabella, come la proprietà e la sensibilità dei dati.
Un aspetto è un'istanza di un tipo di aspetto, contenente valori specifici per i campi dei metadati. Quando colleghi un aspetto a una voce, Knowledge Catalog confronta le informazioni che fornisci con lo schema definito nel tipo di aspetto per garantire la coerenza.
Per definire la proprietà e la sensibilità della tabella retail_data.transactions, associa l'aspetto Data Asset Governance:
- Nella scheda Dettagli della pagina di inserimento di
retail_data.transactions, fai clic su Aggiungi accanto ad Aspetti facoltativi. - Seleziona
Data Asset Governancedall'elenco. Inserisci i valori nei campi:
- Data Steward:
finance-team@example.com - Sensibilità dei dati:seleziona Interna.
- Data dell'ultima revisione:seleziona la data odierna.
- Data Steward:
Fai clic su Salva.
Ora hai creato una base solida per la governance dei dati in Knowledge Catalog.
Cerca voci utilizzando i metadati arricchiti
Hai arricchito la voce retail_data.transactions collegando una colonna a un termine aziendale e allegando un aspetto. Ora puoi utilizzare la ricerca di Knowledge Catalog per trovare voci in base a questi contesti aziendali. Ad esempio, puoi trovare tutte le risorse con un livello di sensibilità specifico o cercare il termine del glossario per scoprire le tabelle sottostanti.
Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.
Fai clic su Filtri per aprire il riquadro Filtri.
In Ambito, seleziona Progetto attuale.
Nella barra di ricerca, inserisci
Find tables where the Data Asset Governance aspect has Internal sensitivity..Dovresti vedere la tabella
retail_data.transactionsnell'elenco dei risultati.Cancella la barra di ricerca e inserisci
Find tables with the Gross Merchandise Value term attached.Dovresti visualizzare di nuovo la tabella
retail_data.transactionsnei risultati, poiché la colonnagmvè collegata direttamente a questo termine commerciale.
Esegui la pulizia
Per evitare addebiti, elimina le risorse che hai creato in questo tutorial.
Elimina il set di dati di esempio
Per eliminare il set di dati BigQuery di esempio e tutte le relative tabelle, utilizza il seguente comando. L'operazione è irreversibile.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Elimina gli artefatti di Knowledge Catalog
Nella console Google Cloud , vai alla scheda Tipi di aspetti nella pagina Tipi di metadati di Knowledge Catalog.
Seleziona il tipo di aspetto
data_asset_governancee fai clic su Elimina.Nella console Google Cloud , vai alla pagina Glossari di Knowledge Catalog.
Seleziona il termine
Gross Merchandise Valuee fai clic su Elimina.Seleziona la categoria
Sales Metricse fai clic su Elimina.Seleziona
Retail Business Glossarye fai clic su Elimina.
Passaggi successivi
- Gestisci glossari aziendali:scopri di più su come stabilire un vocabolario standardizzato per i tuoi dati in Gestire un glossario aziendale.
- Arricchire il contesto dei metadati:scopri di più sull'aggiunta di un contesto significativo utilizzando gli aspetti in Gestire gli aspetti e arricchire i metadati.
- Automatizza l'allegato degli aspetti:allega gli aspetti a nuovi set di dati con Cloud Run Functions o Cloud Build.
- Governance as code:gestisci gli schemi nel controllo della versione utilizzando il provider Terraform di Google Cloud.