Generare insight sul set di dati

Questo documento descrive come generare approfondimenti sui set di dati per i set di dati BigQuery. Gli approfondimenti sul set di dati ti aiutano a comprendere le relazioni tra le tabelle di un set di dati generando grafici delle relazioni e query tra tabelle.

Gli approfondimenti sui set di dati ti aiutano ad accelerare l'esplorazione dei set di dati con più tabelle rilevando e visualizzando automaticamente le relazioni tra le tabelle in un grafico, identificando le relazioni tra chiavi primarie e chiavi esterne e generando query di esempio tra tabelle. Ciò è utile per comprendere la struttura dei dati senza documentazione, scoprire relazioni definite dallo schema, basate sull'utilizzo o dedotte dall'AI tra le tabelle e generare query complesse che uniscono più tabelle.

Per una panoramica degli approfondimenti su tabelle e set di dati, vedi Panoramica degli approfondimenti sui dati.

Modalità per generare insight sul set di dati

Quando genera approfondimenti sul set di dati, BigQuery fornisce due modalità:

Modalità Descrizione Utilizzo
Genera e pubblica

Memorizza gli approfondimenti generati sul set di dati in Knowledge Catalog come aspetti e relazioni dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, BigQuery esegue le seguenti operazioni:

  • Memorizza la descrizione del set di dati in Knowledge Catalog.
  • Acquisisce query e domande suggerite come aspetti riutilizzabili.
  • Acquisisce le relazioni come metadati in Knowledge Catalog.
  • Rende gli approfondimenti pubblicati accessibili a tutti gli utenti che dispongono dell'accesso appropriato a Knowledge Catalog, garantendo la condivisione delle conoscenze dell'organizzazione.
  • Consente di modificare e salvare le descrizioni direttamente in Knowledge Catalog utilizzando l'API. Puoi modificare le query suggerite utilizzando la console Google Cloud .

Utilizza questa modalità per la documentazione dei dati a livello aziendale che persiste ed è riutilizzabile oppure quando crei flussi di lavoro di governance basati sul catalogo.

Genera senza pubblicare

Crea approfondimenti sul set di dati, come descrizioni, domande in linguaggio naturale, relazioni e query SQL su richiesta. Genera senza pubblicare non pubblica gli approfondimenti in Knowledge Catalog.

Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di sovraccaricare il catalogo.

Prima di iniziare

Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.

Abilita API

Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto: API Dataplex, API BigQuery e API Gemini for Google Cloud.

Ruoli richiesti per abilitare le API

Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

Abilita le API

Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, vedi Abilita l'API Gemini for Google Cloud in un progetto Google Cloud .

Completa una scansione del profilo di dati

Per migliorare la qualità degli approfondimenti, genera un'analisi del profilo di dati per le tabelle nel set di dati.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per generare, gestire e recuperare approfondimenti sui set di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:

  • Per generare, gestire e recuperare gli insight:
    • Dataplex DataScan Editor (roles/dataplex.dataScanEditor) o Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) sul progetto
    • Editor dati BigQuery (roles/bigquery.dataEditor) sulle tabelle
    • Utente BigQuery (roles/bigquery.user) o Utente BigQuery Studio (roles/bigquery.studioUser) sul progetto
    • Visualizzatore risorse BigQuery (roles/bigquery.resourceViewer) sul progetto
  • Per visualizzare gli approfondimenti:
  • Per pubblicare gli approfondimenti in Knowledge Catalog: Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) sul gruppo di voci

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Per vedere quali sono esattamente le autorizzazioni richieste per generare insight, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

  • bigquery.datasets.get: leggi i metadati del set di dati
  • bigquery.jobs.create: create jobs
  • bigquery.jobs.listAll: elenca tutti i job nel progetto
  • bigquery.tables.get: recupera i metadati della tabella
  • bigquery.tables.getData: recupera i dati e i metadati della tabella
  • dataplex.datascans.create: crea risorsa DataScan
  • dataplex.datascans.get: leggere i metadati delle risorse DataScan
  • dataplex.datascans.getData: leggi i risultati dell'esecuzione di DataScan
  • dataplex.datascans.run: esegui DataScan on demand
  • dataplex.entryGroups.useSchemaJoinEntryLink: utilizza i link di accesso schema-join
  • dataplex.entryGroups.useSchemaJoinAspect: utilizza gli aspetti di unione dello schema
  • dataplex.entryLinks.create: crea link alle voci
  • dataplex.entryLinks.update: aggiorna i link delle voci
  • dataplex.entryLinks.delete: elimina i link alle voci
  • dataplex.entries.link: voci di link
  • dataplex.entries.update: aggiorna le voci
  • dataplex.entryGroups.useDescriptionsAspect: utilizza gli aspetti della descrizione
  • dataplex.entryGroups.useQueriesAspect: utilizza gli aspetti della query

Generare insight sul set di dati

Console

  1. Nella console Google Cloud , vai a BigQuery Studio.

    Vai a BigQuery Studio

  2. Nel riquadro Explorer, seleziona il progetto e poi il set di dati per cui vuoi generare approfondimenti.

  3. Fai clic sulla scheda Approfondimenti.

  4. Per generare insight e pubblicarli in Knowledge Catalog, fai clic su Genera e pubblica.

    Per generare insight senza pubblicarli in Knowledge Catalog, fai clic su Genera senza pubblicare.

    Per ulteriori informazioni sulle differenze tra le modalità Genera e pubblica e Genera senza pubblicare, consulta Modalità per la generazione di approfondimenti sui set di dati.

  5. Se il tuo set di dati si trova in una regione multipla, potrebbe esserti chiesto di selezionare una regione per generare insight. Seleziona una regione corrispondente alla multi-regione in cui verrà creata la scansione degli insight.

    Il completamento dei dati degli approfondimenti richiede alcuni minuti. La qualità degli approfondimenti migliora se le tabelle nel set di dati hanno risultati della profilazione dei dati.

Una volta generati gli approfondimenti, BigQuery mostra una descrizione del set di dati, un grafico delle relazioni, una tabella delle relazioni e query tra tabelle di esempio.

REST

Per generare insight in modo programmatico, utilizza l'API DataScans di Knowledge Catalog. A questo scopo, completa i seguenti passaggi:

  1. Genera una scansione dei dati della documentazione dei dati per il set di dati BigQuery
  2. Controllare lo stato della scansione della documentazione dei dati
  3. Verifica la pubblicazione in Knowledge Catalog

Genera una scansione dei dati di documentazione dei dati per il set di dati BigQuery

  1. Crea una scansione dei dati di documentazione dei dati utilizzando il metodo dataScans.create. Se vuoi, puoi pubblicare questi approfondimenti in Knowledge Catalog impostando il parametro catalog_publishing_enabled su true.

    Ad esempio:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto Google Cloud in cui si trova il set di dati
    • LOCATION: la regione in cui viene eseguita la scansione dei dati
    • DATASCAN_ID: un nome univoco fornito per questa scansione
    • DATASET_ID: l'ID del set di dati BigQuery sottoposto a scansione
  2. Avvia il job di scansione della documentazione dei dati utilizzando il metodo dataScans.run.

    Ad esempio:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    Questa richiesta restituisce un ID job univoco insieme allo stato iniziale.

Controllare lo stato dell'analisi della documentazione dei dati

Controlla il completamento dell'esecuzione del job di scansione utilizzando il metodo dataScans.get. Per recuperare i risultati completi, inclusi gli approfondimenti e lo stato di pubblicazione, imposta il parametro view su FULL.

Utilizza l'ID job per recuperare lo stato del job. Ad esempio:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

Il job viene completato quando lo stato è SUCCEEDED o FAILURE.

Una risposta al job riuscita contiene gli insight generati nel campo dataDocumentationResult.

Verifica la pubblicazione in Knowledge Catalog

Se catalog_publishing_enabled è impostato su true, gli approfondimenti vengono pubblicati in Knowledge Catalog in modo asincrono dopo il completamento del job di scansione dei dati. Per verificare che gli approfondimenti siano stati salvati in modo permanente, utilizza l'API Dataplex per esaminare gli aspetti del set di dati.

Anche se gli approfondimenti vengono generati dalla scansione dei dati a livello di set di dati, i link alle voci risultanti vengono archiviati tra le tabelle che collegano. Per verificare queste relazioni, utilizza il metodo lookupEntryLinks per recuperare i link alle voci associati a una voce di tabella specifica.

Per recuperare i metadati del set di dati BigQuery, utilizza il metodo entries.get. Per includere tutti gli aspetti, imposta il parametro view su FULL. Ad esempio:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo progetto Google Cloud in cui è stato configurato DataScan
  • LOCATION: la regione in cui risiede il gruppo di voci
  • DATASET_PROJECT_ID: l'ID del progetto Google Cloud in cui si trova il set di dati BigQuery
  • DATASET: l'ID del set di dati BigQuery

Se la pubblicazione in Knowledge Catalog va a buon fine, al set di dati BigQuery vengono allegati i seguenti aspetti:

  • Descrizioni: contiene descrizioni del set di dati create con l'AI
  • Query: contiene query SQL pertinenti relative al set di dati
  • Relazioni: vengono mantenute come link di voci tra le tabelle presenti nel set di dati

Visualizzare e salvare la descrizione del set di dati

Gemini genera una descrizione in linguaggio naturale del set di dati, riassumendo i tipi di tabelle che contiene e il dominio aziendale che rappresenta. Per salvare questa descrizione nei metadati del set di dati, fai clic su Salva nei dettagli.

Puoi modificare la descrizione prima di salvare i dettagli.

Esplorare il grafico delle relazioni

Il grafico Relazioni fornisce una rappresentazione visiva del modo in cui le tabelle nel set di dati sono correlate tra loro. Mostra le 10 tabelle più connesse come nodi, con linee che rappresentano le relazioni tra di loro.

  • Per visualizzare i dettagli della relazione, ad esempio le colonne che uniscono due tabelle, passa il mouse sopra l'arco che collega i nodi della tabella.
  • Per riorganizzare il grafico e migliorarne la visibilità, trascina i nodi della tabella.

Utilizzare la tabella delle relazioni

La tabella delle relazioni elenca le relazioni scoperte in formato tabellare. Ogni riga rappresenta una relazione tra due tabelle, mostrando la tabella e la colonna di origine e la tabella e la colonna di destinazione. La colonna Origine indica come è stata determinata la relazione:

  • Inferito da LLM. Relazioni dedotte da Gemini in base a nomi e descrizioni di tabelle e colonne nel set di dati.
  • In base all'utilizzo. Relazioni estratte dai log delle query, basate su join frequenti.
  • Definito dallo schema. Relazioni derivate dalle mappature di chiave primaria e chiave esterna esistenti nello schema della tabella.

Puoi filtrare le relazioni per una tabella specifica o fornire un feedback sulla qualità delle relazioni rilevate. Per esportare la descrizione e le relazioni del set di dati generato in un file JSON, fai clic su Esporta in JSON.

Utilizzare i suggerimenti per le query

In base alle relazioni rilevate, Gemini genera query di esempio. Si tratta di domande in linguaggio naturale con query SQL corrispondenti che uniscono più tabelle nel set di dati.

  1. Per visualizzare una query SQL, fai clic su una domanda.

  2. Per aprire la query nell'editor di query di BigQuery, fai clic su Copia nella query. Puoi quindi eseguire la query o modificarla.

  3. Per fare una domanda aggiuntiva, fai clic su Fai una domanda aggiuntiva, che apre un data canvas senza titolo in cui puoi chattare con Gemini per esplorare i tuoi dati.

Passaggi successivi