Stabilire il contesto dei dati di base con Knowledge Catalog

Quando lavori con i dati, probabilmente ti sei posto domande come "Che cosa significa questo nome di colonna?", "Chi è il proprietario di questo set di dati danneggiato?" o "Questa tabella è approvata per l'uso?" I tag dei metadati tentano di rispondere a queste domande, ma diventano rapidamente obsoleti o incoerenti. Knowledge Catalog (in precedenza Dataplex Universal Catalog) risolve questo problema consentendoti di collegare metadati strutturati e definizioni aziendali chiare direttamente agli asset di dati. Fornire un contesto di dati chiaro radica gli agenti AI e crea una base di fiducia per ogni utente che interagisce con i dati.

Questo tutorial mostra come stabilire il contesto dei dati in Knowledge Catalog. Progettato per utenti come i responsabili dei dati e gli analisti aziendali, questo tutorial ti guida attraverso i passaggi basati sull'interfaccia utente per creare termini e contesti aziendali standard prima di automatizzare questi workflow. Il tutorial chiarisce le relazioni tra i concetti chiave di Knowledge Catalog. Al termine, saprai come rendere i tuoi dati rilevabili e affidabili.

Obiettivi

In questo tutorial imparerai a:

  • Creare un'unica fonte attendibile per i termini aziendali con un glossario aziendale.
  • Strutturare e organizzare i metadati con i tipi di aspetto.
  • Collegare i metadati agli asset di dati con gli aspetti.
  • Utilizzare la ricerca di Knowledge Catalog per trovare esattamente ciò di cui hai bisogno utilizzando questi nuovi metadati strutturati.

Prima di iniziare

Prima di iniziare, segui questi passaggi:

Configura l'ambiente

Questo tutorial utilizza Cloud Shell, un ambiente a riga di comando in esecuzione nel cloud.

  1. Nella Google Cloud console, fai clic su Attiva Cloud Shell nella barra degli strumenti in alto a destra. Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente.

  2. In Cloud Shell, imposta le variabili PROJECT_ID e LOCATION in modo che tutti i comandi futuri siano destinati al tuo progetto specifico Google Cloud .

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Attiva i servizi necessari Google Cloud .

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Crea un set di dati BigQuery e prepara i dati di esempio

Utilizza il seguente codice per creare un set di dati BigQuery e caricare alcune transazioni CSV di esempio in una tabella. Dopo aver creato la tabella, Knowledge Catalog la rileva e crea una voce per essa nel catalogo.

Considera una voce come la rappresentazione di un asset di dati in Knowledge Catalog. È come un record nel catalogo a cui puoi collegare i metadati. Invece di aggiungere il contesto alla tabella BigQuery direttamente (o arricchirla), lo aggiungi alla relativa voce in Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Sample retail data for foundational data context tutorial" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Esegui una query SELECT per verificare la configurazione:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Output di esempio:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Stabilisci termini comuni con un glossario aziendale

Un buon contesto dei dati si basa su definizioni chiare. Ad esempio, uno sviluppatore non dovrebbe dover indovinare se una colonna denominata gmv significa valore lordo della merce o se include imposte e resi. Un glossario aziendale crea un'unica fonte attendibile per queste definizioni in tutta l'organizzazione. Quando i colleghi o gli agenti AI analizzano i tuoi dati, ereditano questo contesto aziendale preciso. Le definizioni condivise allineano le metriche tra i team come Finanza, Vendite e Operazioni e aiutano gli agenti AI a evitare le allucinazioni.

Per creare un glossario e definire il primo termine:

  1. Nella Google Cloud console, vai alla pagina Glossari di Knowledge Catalog.

    Vai a Glossari

  2. Fai clic su Crea glossario aziendale.

  3. Inserisci i seguenti dettagli:

    • Nome visualizzato: Retail Business Glossary
    • Località: us-central1 (Iowa)
  4. Fai clic su Crea.

  5. Fai clic su Crea categoria.

  6. Assegna alla categoria il nome Sales Metrics e fai clic su Crea.

  7. Seleziona la categoria Sales Metrics e fai clic su Aggiungi termine.

  8. Assegna al termine il nome Gross Merchandise Value e fai clic su Crea.

  9. Fai clic sul termine Gross Merchandise Value per aprire la relativa pagina dei dettagli.

  10. Fai clic su Aggiungi accanto a Panoramica. Inserisci i seguenti dettagli: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Fai clic su Salva.

Ora hai creato un termine del glossario che puoi collegare alle voci di dati in tutta l'organizzazione.

Definisci i metadati tecnici con un tipo di aspetto

Quando utilizzi i tag di metadati non strutturati, spesso finisci per avere voci di catalogo incoerenti. Ad esempio, una tabella potrebbe essere taggata owner:bob e un'altra steward:alice@example.com. Per mantenere i metadati organizzati su larga scala, hai bisogno di uno schema coerente.

È qui che entrano in gioco i tipi di aspetto. Un tipo di aspetto è un progetto di metadati che ti consente di impostare regole chiare e campi obbligatori. Richiedere campi standard come indirizzi email validi per i responsabili dei dati consente agli script downstream di convalidare e proteggere automaticamente i metadati.

Per creare un tipo di aspetto:

  1. Nella Google Cloud console, vai alla scheda Tipi di aspetto di Knowledge Catalog nella pagina Tipi di metadati.

    Vai a Tipi di aspetto

  2. Nella scheda Personalizzato, fai clic su Crea.

  3. Inserisci i seguenti dettagli:

    • Nome visualizzato: Data Asset Context
    • Località: us-central1 (Iowa)
  4. Nella sezione Modello, fai clic su Aggiungi campo per creare i seguenti tre campi:

    • Campo 1:

      • Nome visualizzato: Data Steward
      • Tipo: Text
      • Obbligatorio: seleziona la casella di controllo.
      • Tipo di testo: Plain text
    • Campo 2 (fai clic su Aggiungi campo):

      • Nome visualizzato: Data Sensitivity
      • Tipo: Enum
      • Obbligatorio: lascia facoltativo.
      • Valori: aggiungi Public, Internal e Confidential
    • Campo 3 (fai clic su Aggiungi un campo):

      • Nome visualizzato: Last Review Date
      • Obbligatorio: lascia facoltativo.
      • Tipo: Date and time
  5. Fai clic su Salva.

Ora hai un tipo di aspetto per i campi dei metadati relativi alla governance dei dati, come il responsabile dei dati, il livello di sensibilità e la data di revisione. Nella sezione successiva, applicherai questo schema a una voce della tabella collegando un aspetto con valori specifici per questi campi.

Arricchisci una voce con il contesto aziendale e tecnico

I nomi delle colonne sono spesso abbreviati o ambigui. Il collegamento di una colonna a un termine nel glossario aziendale fornisce una definizione chiara e coerente. In questo passaggio, arricchisci la voce per la tabella retail_data.transactions collegando il termine Gross Merchandise Value a una colonna denominata gmv e collegando un aspetto alla voce della tabella utilizzando il tipo di aspetto.

Per chiarire il significato della colonna gmv in retail_data.transactions, collegala al termine Gross Merchandise Value.

  1. Nella Google Cloud console, vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Ricerca

  2. Fai clic su Filtri per aprire il riquadro Filtri.

  3. In Ambito, seleziona Progetto corrente.

  4. Cerca retail_data.transactions e fai clic sulla tabella delle transazioni restituita.

  5. Fai clic sulla scheda Schema.

  6. Seleziona la casella di controllo accanto alla colonna gmv e fai clic su Aggiungi termine aziendale.

  7. Seleziona Gross Merchandise Value.

Collega un aspetto alla voce della tabella

Oltre a collegare i termini aziendali alle colonne, puoi collegare un aspetto a una voce della tabella per acquisire i metadati a livello di tabella, come la proprietà e la sensibilità dei dati.

Un aspetto è un'istanza di un tipo di aspetto, con valori specifici per i campi dei metadati. Quando colleghi un aspetto a una voce, Knowledge Catalog confronta le informazioni che fornisci con lo schema definito nel tipo di aspetto per garantire la coerenza.

Per definire la proprietà e la sensibilità della tabella retail_data.transactions, collega l'aspetto Data Asset Context:

  1. Nella scheda Dettagli della pagina della voce retail_data.transactions, fai clic su Aggiungi accanto ad Aspetti facoltativi.
  2. Seleziona Data Asset Context dall'elenco.
  3. Inserisci i valori nei campi:

    • Responsabile dei dati: finance-team@example.com
    • Sensibilità dei dati: seleziona Interno.
    • Data dell'ultima revisione: seleziona la data di oggi.
  4. Fai clic su Salva.

Arricchendo i dati di esempio delle transazioni di vendita al dettaglio, hai creato una base solida per il contesto dei dati in Knowledge Catalog.

Cerca le voci utilizzando i metadati arricchiti

Ora puoi utilizzare la ricerca di Knowledge Catalog per trovare le voci in base al contesto aziendale che hai configurato. Ad esempio, puoi trovare tutti gli asset con un livello di sensibilità specifico o cercare il termine del glossario per scoprire le tabelle sottostanti.

  1. Nella Google Cloud console, vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Ricerca

  2. Fai clic su Filtri per aprire il riquadro Filtri.

  3. In Ambito, seleziona Progetto corrente.

  4. Nella barra di ricerca, inserisci Find tables where the Data Asset Context aspect has Internal sensitivity.

  5. Dovresti vedere la tabella retail_data.transactions nell'elenco dei risultati.

  6. Cancella il testo nella barra di ricerca e inserisci Find tables with the Gross Merchandise Value term attached.

  7. Dovresti visualizzare di nuovo la tabella retail_data.transactions nei risultati, poiché la colonna gmv è collegata direttamente a questo termine aziendale.

Quando colleghi un agente AI a Knowledge Catalog, questo eredita automaticamente questi metadati arricchiti. Ad esempio, quando chiedi a un agente di recuperare le metriche di vendita interne, legge l'aspetto Sensibilità dei dati (che hai impostato su Interno) e il termine del glossario Valore lordo della merce collegato. Questo contesto condiviso aiuta l'agente a verificare le origini dati, rispettare le norme di accesso ed evitare le allucinazioni.

Libera spazio

Per evitare che ti vengano addebitati dei costi, elimina le risorse che hai creato in questo tutorial.

Elimina il set di dati di esempio

Per eliminare il set di dati BigQuery di esempio e tutte le relative tabelle, utilizza il seguente comando. L'operazione è irreversibile.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Elimina gli artefatti di Knowledge Catalog

  1. Nella Google Cloud console, vai alla scheda Tipi di aspetto di Knowledge Catalog nella pagina Tipi di metadati.

    Vai a Tipi di aspetto

  2. Seleziona il tipo di aspetto Data Asset Context e fai clic su Elimina.

  3. Nella Google Cloud console, vai alla pagina Glossari di Knowledge Catalog.

    Vai a Glossari

  4. Seleziona il termine Gross Merchandise Value e fai clic su Elimina.

  5. Seleziona la categoria Sales Metrics e fai clic su Elimina.

  6. Seleziona Retail Business Glossary e fai clic su Elimina.

Passaggi successivi

Per scoprire di più sulla gestione dei cataloghi e sulla creazione di agenti con Knowledge Catalog, consulta le seguenti risorse: