Quando lavori con i dati, probabilmente ti sei posto domande come "Che cosa significa questo nome di colonna?", "Chi è il proprietario di questo set di dati danneggiato?" o "Questa tabella è approvata per l'uso?" I tag dei metadati tentano di rispondere a queste domande, ma diventano rapidamente obsoleti o incoerenti. Knowledge Catalog (in precedenza Dataplex Universal Catalog) risolve questo problema consentendoti di collegare metadati strutturati e definizioni aziendali chiare direttamente agli asset di dati. Fornire un contesto di dati chiaro radica gli agenti AI e crea una base di fiducia per ogni utente che interagisce con i dati.
Questo tutorial mostra come stabilire il contesto dei dati in Knowledge Catalog. Progettato per utenti come i responsabili dei dati e gli analisti aziendali, questo tutorial ti guida attraverso i passaggi basati sull'interfaccia utente per creare termini e contesti aziendali standard prima di automatizzare questi workflow. Il tutorial chiarisce le relazioni tra i concetti chiave di Knowledge Catalog. Al termine, saprai come rendere i tuoi dati rilevabili e affidabili.
Obiettivi
In questo tutorial imparerai a:
- Creare un'unica fonte attendibile per i termini aziendali con un glossario aziendale.
- Strutturare e organizzare i metadati con i tipi di aspetto.
- Collegare i metadati agli asset di dati con gli aspetti.
- Utilizzare la ricerca di Knowledge Catalog per trovare esattamente ciò di cui hai bisogno utilizzando questi nuovi metadati strutturati.
Prima di iniziare
Prima di iniziare, segui questi passaggi:
- Seleziona un Google Cloud progetto per questo tutorial.
- Verifica che la fatturazione sia attivata per il tuo progetto.
Configura l'ambiente
Questo tutorial utilizza Cloud Shell, un ambiente a riga di comando in esecuzione nel cloud.
Nella Google Cloud console, fai clic su Attiva Cloud Shell nella barra degli strumenti in alto a destra. Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente.
In Cloud Shell, imposta le variabili
PROJECT_IDeLOCATIONin modo che tutti i comandi futuri siano destinati al tuo progetto specifico Google Cloud .export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Attiva i servizi necessari Google Cloud .
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Crea un set di dati BigQuery e prepara i dati di esempio
Utilizza il seguente codice per creare un set di dati BigQuery e caricare alcune transazioni CSV di esempio in una tabella. Dopo aver creato la tabella, Knowledge Catalog la rileva e crea una voce per essa nel catalogo.
Considera una voce come la rappresentazione di un asset di dati in Knowledge Catalog. È come un record nel catalogo a cui puoi collegare i metadati. Invece di aggiungere il contesto alla tabella BigQuery direttamente (o arricchirla), lo aggiungi alla relativa voce in Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Esegui una query SELECT per verificare la configurazione:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Output di esempio:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Stabilisci termini comuni con un glossario aziendale
Un buon contesto dei dati si basa su definizioni chiare. Ad esempio, uno sviluppatore non dovrebbe dover indovinare se una colonna denominata gmv significa valore lordo della merce o se include imposte e resi. Un glossario aziendale crea un'unica fonte attendibile per queste definizioni in tutta l'organizzazione. Quando i colleghi o gli agenti AI analizzano i tuoi dati, ereditano questo contesto aziendale preciso. Le definizioni condivise allineano le metriche tra i team come Finanza, Vendite e Operazioni e aiutano gli agenti AI a evitare le allucinazioni.
Per creare un glossario e definire il primo termine:
Nella Google Cloud console, vai alla pagina Glossari di Knowledge Catalog.
Fai clic su Crea glossario aziendale.
Inserisci i seguenti dettagli:
- Nome visualizzato:
Retail Business Glossary - Località:
us-central1 (Iowa)
- Nome visualizzato:
Fai clic su Crea.
Fai clic su Crea categoria.
Assegna alla categoria il nome
Sales Metricse fai clic su Crea.Seleziona la categoria Sales Metrics e fai clic su Aggiungi termine.
Assegna al termine il nome
Gross Merchandise Valuee fai clic su Crea.Fai clic sul termine Gross Merchandise Value per aprire la relativa pagina dei dettagli.
Fai clic su Aggiungi accanto a Panoramica. Inserisci i seguenti dettagli:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Fai clic su Salva.
Ora hai creato un termine del glossario che puoi collegare alle voci di dati in tutta l'organizzazione.
Definisci i metadati tecnici con un tipo di aspetto
Quando utilizzi i tag di metadati non strutturati, spesso finisci per avere voci di catalogo incoerenti. Ad esempio, una tabella potrebbe essere taggata owner:bob e un'altra steward:alice@example.com. Per mantenere i metadati organizzati su larga scala, hai bisogno di uno schema coerente.
È qui che entrano in gioco i tipi di aspetto. Un tipo di aspetto è un progetto di metadati che ti consente di impostare regole chiare e campi obbligatori. Richiedere campi standard come indirizzi email validi per i responsabili dei dati consente agli script downstream di convalidare e proteggere automaticamente i metadati.
Per creare un tipo di aspetto:
Nella Google Cloud console, vai alla scheda Tipi di aspetto di Knowledge Catalog nella pagina Tipi di metadati.
Nella scheda Personalizzato, fai clic su Crea.
Inserisci i seguenti dettagli:
- Nome visualizzato:
Data Asset Context - Località:
us-central1 (Iowa)
- Nome visualizzato:
Nella sezione Modello, fai clic su Aggiungi campo per creare i seguenti tre campi:
Campo 1:
- Nome visualizzato:
Data Steward - Tipo:
Text - Obbligatorio: seleziona la casella di controllo.
- Tipo di testo:
Plain text
- Nome visualizzato:
Campo 2 (fai clic su Aggiungi campo):
- Nome visualizzato:
Data Sensitivity - Tipo:
Enum - Obbligatorio: lascia facoltativo.
- Valori: aggiungi
Public,InternaleConfidential
- Nome visualizzato:
Campo 3 (fai clic su Aggiungi un campo):
- Nome visualizzato:
Last Review Date - Obbligatorio: lascia facoltativo.
- Tipo:
Date and time
- Nome visualizzato:
Fai clic su Salva.
Ora hai un tipo di aspetto per i campi dei metadati relativi alla governance dei dati, come il responsabile dei dati, il livello di sensibilità e la data di revisione. Nella sezione successiva, applicherai questo schema a una voce della tabella collegando un aspetto con valori specifici per questi campi.
Arricchisci una voce con il contesto aziendale e tecnico
I nomi delle colonne sono spesso abbreviati o ambigui. Il collegamento di una colonna a un termine nel glossario aziendale fornisce una definizione chiara e coerente. In questo passaggio, arricchisci la voce per la tabella retail_data.transactions collegando il termine Gross Merchandise Value a una colonna denominata gmv e collegando un aspetto alla voce della tabella utilizzando il tipo di aspetto.
Collega una colonna a un termine aziendale
Per chiarire il significato della colonna gmv in retail_data.transactions, collegala al termine Gross Merchandise Value.
Nella Google Cloud console, vai alla pagina Ricerca di Knowledge Catalog.
Fai clic su Filtri per aprire il riquadro Filtri.
In Ambito, seleziona Progetto corrente.
Cerca
retail_data.transactionse fai clic sulla tabella delle transazioni restituita.Fai clic sulla scheda Schema.
Seleziona la casella di controllo accanto alla colonna
gmve fai clic su Aggiungi termine aziendale.Seleziona
Gross Merchandise Value.
Collega un aspetto alla voce della tabella
Oltre a collegare i termini aziendali alle colonne, puoi collegare un aspetto a una voce della tabella per acquisire i metadati a livello di tabella, come la proprietà e la sensibilità dei dati.
Un aspetto è un'istanza di un tipo di aspetto, con valori specifici per i campi dei metadati. Quando colleghi un aspetto a una voce, Knowledge Catalog confronta le informazioni che fornisci con lo schema definito nel tipo di aspetto per garantire la coerenza.
Per definire la proprietà e la sensibilità della tabella retail_data.transactions, collega l'aspetto Data Asset Context:
- Nella scheda Dettagli della pagina della voce
retail_data.transactions, fai clic su Aggiungi accanto ad Aspetti facoltativi. - Seleziona
Data Asset Contextdall'elenco. Inserisci i valori nei campi:
- Responsabile dei dati:
finance-team@example.com - Sensibilità dei dati: seleziona Interno.
- Data dell'ultima revisione: seleziona la data di oggi.
- Responsabile dei dati:
Fai clic su Salva.
Arricchendo i dati di esempio delle transazioni di vendita al dettaglio, hai creato una base solida per il contesto dei dati in Knowledge Catalog.
Cerca le voci utilizzando i metadati arricchiti
Ora puoi utilizzare la ricerca di Knowledge Catalog per trovare le voci in base al contesto aziendale che hai configurato. Ad esempio, puoi trovare tutti gli asset con un livello di sensibilità specifico o cercare il termine del glossario per scoprire le tabelle sottostanti.
Nella Google Cloud console, vai alla pagina Ricerca di Knowledge Catalog.
Fai clic su Filtri per aprire il riquadro Filtri.
In Ambito, seleziona Progetto corrente.
Nella barra di ricerca, inserisci
Find tables where the Data Asset Context aspect has Internal sensitivity.Dovresti vedere la tabella
retail_data.transactionsnell'elenco dei risultati.Cancella il testo nella barra di ricerca e inserisci
Find tables with the Gross Merchandise Value term attached.Dovresti visualizzare di nuovo la tabella
retail_data.transactionsnei risultati, poiché la colonnagmvè collegata direttamente a questo termine aziendale.
Quando colleghi un agente AI a Knowledge Catalog, questo eredita automaticamente questi metadati arricchiti. Ad esempio, quando chiedi a un agente di recuperare le metriche di vendita interne, legge l'aspetto Sensibilità dei dati (che hai impostato su Interno) e il termine del glossario Valore lordo della merce collegato. Questo contesto condiviso aiuta l'agente a verificare le origini dati, rispettare le norme di accesso ed evitare le allucinazioni.
Libera spazio
Per evitare che ti vengano addebitati dei costi, elimina le risorse che hai creato in questo tutorial.
Elimina il set di dati di esempio
Per eliminare il set di dati BigQuery di esempio e tutte le relative tabelle, utilizza il seguente comando. L'operazione è irreversibile.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Elimina gli artefatti di Knowledge Catalog
Nella Google Cloud console, vai alla scheda Tipi di aspetto di Knowledge Catalog nella pagina Tipi di metadati.
Seleziona il tipo di aspetto
Data Asset Contexte fai clic su Elimina.Nella Google Cloud console, vai alla pagina Glossari di Knowledge Catalog.
Seleziona il termine
Gross Merchandise Valuee fai clic su Elimina.Seleziona la categoria
Sales Metricse fai clic su Elimina.Seleziona
Retail Business Glossarye fai clic su Elimina.
Passaggi successivi
Per scoprire di più sulla gestione dei cataloghi e sulla creazione di agenti con Knowledge Catalog, consulta le seguenti risorse:
- Gestire gli aspetti e arricchire i metadati: scopri come definire schemi personalizzati e collegare metadati strutturati in Gestire gli aspetti e arricchire i metadati.
- Gestire i glossari aziendali: scopri come stabilire un vocabolario standardizzato per la tua organizzazione in Gestire un glossario aziendale.
- Regolare con Terraform: scopri come eseguire il provisioning di tipi di aspetto e glossari personalizzati utilizzando Terraform.
- Utilizzare i termini del glossario su larga scala: esegui l'arricchimento collettivo dei metadati utilizzando i file JSON in Informazioni sull'importazione e l'esportazione di glossari e link alle voci.
- Arricchire i metadati con gli agenti: crea un agente AI per estrarre il contesto e arricchire gli asset di dati in Creare un agente per arricchire i metadati.
- Esplorare altri casi d'uso: scopri altri workflow e scenari pratici in Casi d'uso.