Genera approfondimenti sul set di dati
Questo documento descrive come generare approfondimenti sui set di dati per i set di dati BigQuery. Gli approfondimenti sul set di dati ti aiutano a comprendere le relazioni tra le tabelle di un set di dati generando grafici delle relazioni e query tra tabelle.
Gli approfondimenti sui set di dati ti aiutano ad accelerare l'esplorazione dei set di dati con più tabelle rilevando e visualizzando automaticamente le relazioni tra le tabelle in un grafico, identificando le relazioni tra chiavi primarie e chiavi esterne e generando query di esempio tra tabelle. Ciò è utile per comprendere la struttura dei dati senza documentazione, scoprire relazioni definite dallo schema, basate sull'utilizzo o dedotte dall'AI tra le tabelle e generare query complesse che uniscono più tabelle.
Per una panoramica degli approfondimenti su tabelle e set di dati, vedi Panoramica degli approfondimenti sui dati.
Prima di iniziare
Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.
Abilita API
Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto: API Dataplex, API BigQuery e API Gemini in Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, vedi Abilita l'API Gemini for Google Cloud in un progetto Google Cloud .
Completa una scansione del profilo di dati
Per migliorare la qualità degli approfondimenti, genera risultati della profilazione dei dati per le tabelle nel tuo set di dati.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per generare, gestire e recuperare approfondimenti sui set di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Per generare, gestire e recuperare gli insight:
-
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) o Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) sul progetto -
Editor dati BigQuery (
roles/bigquery.dataEditor) sulle tabelle -
Utente BigQuery (
roles/bigquery.user) o Utente BigQuery Studio (roles/bigquery.studioUser) sul progetto.
-
Dataplex DataScan Editor (
-
Per visualizzare gli approfondimenti:
-
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) sul progetto -
Visualizzatore dati BigQuery (
roles/bigquery.dataViewer) sul set di dati
-
Dataplex DataScan DataViewer (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per vedere quali sono esattamente le autorizzazioni richieste per generare insight, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
bigquery.datasets.get: leggi i metadati del set di datibigquery.jobs.create: create jobsbigquery.tables.get: recupera i metadati della tabellabigquery.tables.getData: recupera i dati e i metadati della tabelladataplex.datascans.create: crea risorsa DataScandataplex.datascans.get: leggere i metadati delle risorse DataScandataplex.datascans.getData: leggi i risultati dell'esecuzione di DataScandataplex.datascans.run: esegui DataScan on demand
Genera approfondimenti sul set di dati
Nella console Google Cloud , vai a BigQuery Studio.
Nel riquadro Explorer, seleziona il progetto e poi il set di dati per cui vuoi generare approfondimenti.
Fai clic sulla scheda Approfondimenti.
Fai clic su Genera.
Se il set di dati si trova in una regione multipla, potrebbe esserti chiesto di selezionare una regione per generare insight. Seleziona una regione corrispondente alla multi-regione in cui verrà creata la scansione degli insight.
Il completamento dei dati degli approfondimenti richiede alcuni minuti. La qualità degli approfondimenti migliora se le tabelle nel set di dati hanno risultati della profilazione dei dati.
Una volta generati gli approfondimenti, BigQuery mostra una descrizione del set di dati, un grafico delle relazioni, una tabella delle relazioni e query tra tabelle di esempio.
Visualizzare e salvare la descrizione del set di dati
Gemini genera una descrizione in linguaggio naturale del set di dati, riassumendo i tipi di tabelle che contiene e il dominio aziendale che rappresenta. Per salvare questa descrizione nei metadati del set di dati, fai clic su Salva nei dettagli.
Puoi modificare la descrizione prima di salvare i dettagli.
Esplorare il grafico delle relazioni
Il grafico Relazioni fornisce una rappresentazione visiva del modo in cui le tabelle nel set di dati sono correlate tra loro. Mostra le 10 tabelle più connesse come nodi, con linee che rappresentano le relazioni tra loro.
- Per visualizzare i dettagli della relazione, ad esempio le colonne che uniscono due tabelle, passa il mouse sopra l'arco che collega i nodi della tabella.
- Per riorganizzare il grafico e migliorarne la visibilità, trascina i nodi della tabella.
Utilizzare la tabella delle relazioni
La tabella delle relazioni elenca le relazioni scoperte in formato tabellare. Ogni riga rappresenta una relazione tra due tabelle, mostrando la tabella e la colonna di origine e la tabella e la colonna di destinazione. La colonna Origine indica come è stata determinata la relazione:
- Inferito dall'LLM. Relazioni dedotte da Gemini in base a nomi e descrizioni di tabelle e colonne nel set di dati.
- In base all'utilizzo. Relazioni estratte dai log delle query, basate su join frequenti.
- Definito dallo schema. Relazioni derivate dalle mappature di chiave primaria e chiave esterna esistenti nello schema della tabella.
Puoi filtrare le relazioni per una tabella specifica o fornire feedback sulla qualità delle relazioni rilevate. Per esportare la descrizione e le relazioni del set di dati generato in un file JSON, fai clic su Esporta in JSON.
Utilizzare i suggerimenti per le query
In base alle relazioni rilevate, Gemini genera query di esempio. Si tratta di domande in linguaggio naturale con query SQL corrispondenti che uniscono più tabelle nel set di dati.
Per visualizzare una query SQL, fai clic su una domanda.
Per aprire la query nell'editor di query di BigQuery, fai clic su Copia nella query. Puoi quindi eseguire la query o modificarla.
Per fare una domanda aggiuntiva, fai clic su Fai una domanda aggiuntiva, che apre un data canvas senza titolo in cui puoi chattare con Gemini per esplorare i tuoi dati.
Passaggi successivi
- Scopri di più sulla panoramica degli approfondimenti sui dati.
- Scopri come generare insight sulle tabelle.
- Scopri di più sulla profilazione dei dati di Dataplex Universal Catalog.