Generare insight sui set di dati

Questo documento descrive come generare insight sui set di dati BigQuery. Gli insight sui set di dati ti aiutano a comprendere le relazioni tra le tabelle in un set di dati generando grafici delle relazioni e query tra tabelle.

Gli insight sui set di dati ti aiutano ad accelerare l'esplorazione dei set di dati con più tabelle rilevando e visualizzando automaticamente le relazioni tra le tabelle in un grafico, identificando le relazioni di chiave primaria e chiave esterna e generando query di esempio tra tabelle. Questo è utile per comprendere la struttura dei dati senza documentazione, scoprire le relazioni tra le tabelle definite dallo schema, basate sull'utilizzo o dedotte dall'AI e generare query complesse che eseguono il join di più tabelle.

Per una panoramica degli insight su tabelle e set di dati, consulta Panoramica degli insight sui dati.

Modalità per generare insight sui set di dati

Quando generi insight sui set di dati, BigQuery fornisce due modalità:

Modalità Descrizione Utilizzo
Genera e pubblica

Salva gli insight sui set di dati generati in Knowledge Catalog come aspetti e relazioni dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, BigQuery esegue le seguenti operazioni:

  • Memorizza la descrizione del set di dati in Knowledge Catalog.
  • Acquisisce le query e le domande suggerite come aspetti riutilizzabili
  • Acquisisce le relazioni come metadati in Knowledge Catalog.
  • Rende gli insight pubblicati accessibili a tutti gli utenti che dispongono dell'accesso appropriato a Knowledge Catalog, garantendo la condivisione delle conoscenze dell'organizzazione.
  • Ti consente di modificare e salvare le descrizioni direttamente in Knowledge Catalog utilizzando l'API. Puoi modificare le query suggerite utilizzando la Google Cloud console.

Utilizza questa modalità per la documentazione dei dati a livello aziendale che è persistente e riutilizzabile o quando crei flussi di lavoro di governance basati sul catalogo.

Genera senza pubblicare

Crea insight sui set di dati, come descrizioni, domande in linguaggio naturale domande, relazioni e query SQL on demand. Genera senza pubblicare non pubblica gli insight in Knowledge Catalog.

Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di ingombrare il catalogo.

Prima di iniziare

Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.

Abilita API

Per utilizzare gli insight sui dati, abilita le seguenti API nel tuo progetto: API Dataplex, API BigQuery e API Gemini for Google Cloud.

Ruoli richiesti per abilitare le API

Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

Abilita le API

Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, consulta Abilita l'API Gemini for Google Cloud in un Google Cloud progetto.

Completa una scansione del profilo di dati

Per migliorare la qualità degli insight, genera una scansione del profilo di dati per le tabelle nel set di dati.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per generare, gestire e recuperare gli insight sui set di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Per vedere quali sono esattamente le autorizzazioni richieste per generare gli insight, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

  • bigquery.datasets.get: leggi i metadati del set di dati
  • bigquery.jobs.create: crea job
  • bigquery.jobs.listAll: elenca tutti i job nel progetto
  • bigquery.tables.get: recupera i metadati della tabella
  • bigquery.tables.getData: recupera i dati e i metadati della tabella
  • dataplex.datascans.create: crea la risorsa DataScan
  • dataplex.datascans.get: leggi i metadati della risorsa DataScan
  • dataplex.datascans.getData: leggi i risultati dell'esecuzione di DataScan
  • dataplex.datascans.run: esegui DataScan on demand
  • dataplex.entryGroups.useSchemaJoinEntryLink: utilizza i link di voci schema-join
  • dataplex.entryGroups.useSchemaJoinAspect: utilizza gli aspetti di join dello schema
  • dataplex.entryLinks.create: crea link di voci
  • dataplex.entryLinks.update: aggiorna i link di voci
  • dataplex.entryLinks.delete: elimina i link di voci
  • dataplex.entries.link: collega le voci
  • dataplex.entries.update: aggiorna le voci
  • dataplex.entryGroups.useDescriptionsAspect: utilizza gli aspetti della descrizione
  • dataplex.entryGroups.useQueriesAspect: utilizza gli aspetti della query

Generare insight sui set di dati

Console

  1. Nella Google Cloud console, vai a BigQuery Studio.

    Vai a BigQuery Studio

  2. Nel riquadro Explorer, seleziona il progetto e poi il set di dati per il quale vuoi generare gli insight.

  3. Fai clic sulla scheda Insight.

  4. Per generare gli insight e pubblicarli in Knowledge Catalog, fai clic su Genera e pubblica.

    Per generare gli insight senza pubblicarli in Knowledge Catalog, fai clic su Genera senza pubblicare.

    Per saperne di più sulle differenze tra le modalità Genera e pubblica e Genera senza pubblicare, consulta Modalità per generare insight sui set di dati.

  5. Se il set di dati si trova in una multi-regione, potrebbe essere richiesto di selezionare una regione per generare gli insight. Seleziona una regione corrispondente alla multi-regione in cui verrà creata la scansione degli insight.

    Il completamento degli insight richiede alcuni minuti. La qualità degli insight migliora se le tabelle nel set di dati hanno risultati di profilazione dei dati.

Dopo aver generato gli insight, BigQuery visualizza una descrizione del set di dati, un grafico delle relazioni, una tabella delle relazioni e query di esempio tra tabelle.

REST

Per generare gli insight a livello di programmazione, utilizza l'API DataScans di Knowledge Catalog. A questo scopo, completa i seguenti passaggi:

  1. Genera una scansione dei dati della documentazione dei dati per il set di dati BigQuery
  2. Controlla lo stato della scansione della documentazione dei dati
  3. Verifica la pubblicazione in Knowledge Catalog

Genera una scansione dei dati della documentazione dei dati per il set di dati BigQuery

  1. Crea una scansione dei dati della documentazione dei dati utilizzando il dataScans.create metodo. Facoltativamente, puoi pubblicare questi insight in Knowledge Catalog impostando il parametro catalog_publishing_enabled su true.

    Ad esempio:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo Google Cloud progetto in cui si trova il set di dati
    • LOCATION: la regione in cui viene eseguita la scansione dei dati
    • DATASCAN_ID: un nome univoco che fornisci per questa scansione
    • DATASET_ID: l'ID del set di dati BigQuery sottoposto a scansione
  2. Avvia il job di scansione della documentazione dei dati utilizzando il dataScans.run metodo.

    Ad esempio:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    Questa richiesta restituisce un ID job univoco insieme allo stato iniziale.

Controlla lo stato della scansione della documentazione dei dati

Controlla il completamento dell'esecuzione del job di scansione utilizzando il dataScans.get metodo. Per recuperare i risultati completi, inclusi gli insight e lo stato di pubblicazione, imposta il parametro view su FULL.

Utilizza l'ID job per recuperare lo stato del job. Ad esempio:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

Il job viene completato quando lo stato è SUCCEEDED o FAILURE.

Una risposta di job riuscita contiene gli insight generati nel campo dataDocumentationResult.

Verifica la pubblicazione in Knowledge Catalog

Se catalog_publishing_enabled è impostato su true, gli insight vengono pubblicati in Knowledge Catalog in modo asincrono al termine del job di scansione dei dati. Per verificare che gli insight siano stati salvati, utilizza l'API Dataplex per esaminare gli aspetti del set di dati.

Anche se gli insight vengono generati dalla scansione dei dati a livello di set di dati, i link di voci risultanti vengono archiviati tra le tabelle a cui si collegano. Per verificare queste relazioni, utilizza il lookupEntryLinks metodo per recuperare i link di voci associati a una voce di tabella specifica.

Per recuperare i metadati del set di dati BigQuery, utilizza il entries.get metodo. Per includere tutti gli aspetti, imposta il parametro view su FULL. Ad esempio:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo Google Cloud progetto in cui è stato configurato DataScan
  • LOCATION: la regione in cui si trova il gruppo di voci
  • DATASET_PROJECT_ID: l'ID del Google Cloud progetto in cui si trova il set di dati BigQuery
  • DATASET: l'ID del set di dati BigQuery

Se la pubblicazione in Knowledge Catalog ha esito positivo, i seguenti aspetti vengono allegati al set di dati BigQuery:

  • Descrizioni: contiene le descrizioni del set di dati generate dall'AI
  • Query: contiene query SQL pertinenti relative al set di dati
  • Relazioni: salvate come link di voci tra le tabelle presenti nel set di dati

Visualizzare e salvare la descrizione del set di dati

Gemini genera una descrizione in linguaggio naturale del set di dati, riepilogando i tipi di tabelle che contiene e il dominio aziendale che rappresenta. Per salvare questa descrizione nei metadati del set di dati, fai clic su Salva nei dettagli.

Puoi modificare la descrizione prima di salvare i dettagli.

Esplorare il grafico delle relazioni

Il grafico Relazioni fornisce una rappresentazione visiva di come le tabelle nel set di dati sono correlate tra loro. Visualizza le 10 tabelle più connesse come nodi, con linee che rappresentano le relazioni tra loro.

  • Per visualizzare i dettagli della relazione, ad esempio le colonne che uniscono due tabelle, passa il mouse sopra il bordo che collega i nodi della tabella.
  • Per riorganizzare il grafico per una migliore visibilità, trascina i nodi della tabella.

Utilizzare la tabella delle relazioni

La tabella delle relazioni elenca le relazioni rilevate in formato tabulare. Ogni riga rappresenta una relazione tra due tabelle, mostrando la tabella e la colonna di origine e la tabella e la colonna di destinazione. La colonna Origine indica come è stata determinata la relazione:

  • Dedotte dall'LLM. Relazioni dedotte da Gemini, in base ai nomi e alle descrizioni delle tabelle e delle colonne nel set di dati.
  • Basate sull'utilizzo. Relazioni estratte dai log delle query, in base ai join frequenti.
  • Definite dallo schema. Relazioni derivate dai mapping di chiave primaria e chiave esterna esistenti nello schema della tabella.

Puoi filtrare le relazioni per una tabella specifica o fornire feedback sulla qualità delle relazioni rilevate. Per esportare la descrizione e le relazioni del set di dati generate in un file JSON, fai clic su Esporta in JSON.

Utilizzare i suggerimenti per le query

In base alle relazioni rilevate, Gemini genera query di esempio. Si tratta di domande in linguaggio naturale con query SQL corrispondenti che eseguono il join di più tabelle nel set di dati.

  1. Per visualizzare una query SQL, fai clic su una domanda.

  2. Per aprire la query nell'editor di query di BigQuery, fai clic su Copia nella query. A questo punto, puoi eseguire la query o modificarla.

  3. Per fare una domanda aggiuntiva, fai clic su Fai una domanda aggiuntiva, che apre un canvas di dati senza titolo in cui puoi chattare con Gemini per esplorare i tuoi dati.

Gestire gli insight generati

Dopo aver generato gli insight per un set di dati, puoi gestirli, aggiornarli o eliminarli in Knowledge Catalog. Per saperne di più, consulta Gestire gli insight sui set di dati.

Passaggi successivi