Generare insight sul set di dati
Questo documento descrive come generare approfondimenti sui set di dati per i set di dati BigQuery. Gli approfondimenti sul set di dati ti aiutano a comprendere le relazioni tra le tabelle di un set di dati generando grafici delle relazioni e query tra tabelle.
Gli approfondimenti sui set di dati ti aiutano ad accelerare l'esplorazione dei set di dati con più tabelle rilevando e visualizzando automaticamente le relazioni tra le tabelle in un grafico, identificando le relazioni tra chiavi primarie e chiavi esterne e generando query di esempio tra tabelle. Ciò è utile per comprendere la struttura dei dati senza documentazione, scoprire relazioni definite dallo schema, basate sull'utilizzo o dedotte dall'AI tra le tabelle e generare query complesse che uniscono più tabelle.
Per una panoramica degli approfondimenti su tabelle e set di dati, vedi Panoramica degli approfondimenti sui dati.
Modalità per generare insight sul set di dati
Quando genera approfondimenti sul set di dati, BigQuery fornisce due modalità:
| Modalità | Descrizione | Utilizzo |
|---|---|---|
| Genera e pubblica |
Memorizza gli approfondimenti generati sul set di dati in Knowledge Catalog come aspetti e relazioni dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, BigQuery esegue le seguenti operazioni:
|
Utilizza questa modalità per la documentazione dei dati a livello aziendale che persiste ed è riutilizzabile oppure quando crei flussi di lavoro di governance basati sul catalogo. |
| Genera senza pubblicare |
Crea approfondimenti sul set di dati, come descrizioni, domande in linguaggio naturale, relazioni e query SQL su richiesta. Genera senza pubblicare non pubblica gli approfondimenti in Knowledge Catalog. |
Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di sovraccaricare il catalogo. |
Prima di iniziare
Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.
Abilita API
Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto: API Dataplex, API BigQuery e API Gemini for Google Cloud.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere
i ruoli.
Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, vedi Abilita l'API Gemini for Google Cloud in un progetto Google Cloud .
Completa una scansione del profilo di dati
Per migliorare la qualità degli approfondimenti, genera un'analisi del profilo di dati per le tabelle nel set di dati.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per generare, gestire e recuperare approfondimenti sui set di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Per generare, gestire e recuperare gli insight:
- Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) o Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) sul progetto - Editor dati BigQuery (
roles/bigquery.dataEditor) sulle tabelle - Utente BigQuery (
roles/bigquery.user) o Utente BigQuery Studio (roles/bigquery.studioUser) sul progetto - Visualizzatore risorse BigQuery (
roles/bigquery.resourceViewer) sul progetto
- Dataplex DataScan Editor (
-
Per visualizzare gli approfondimenti:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) sul progetto - Visualizzatore dati BigQuery (
roles/bigquery.dataViewer) sul set di dati
- Dataplex DataScan DataViewer (
-
Per pubblicare gli approfondimenti in Knowledge Catalog:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) sul gruppo di voci
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per vedere quali sono esattamente le autorizzazioni richieste per generare insight, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
bigquery.datasets.get: leggi i metadati del set di datibigquery.jobs.create: create jobsbigquery.jobs.listAll: elenca tutti i job nel progettobigquery.tables.get: recupera i metadati della tabellabigquery.tables.getData: recupera i dati e i metadati della tabelladataplex.datascans.create: crea risorsa DataScandataplex.datascans.get: leggere i metadati delle risorse DataScandataplex.datascans.getData: leggi i risultati dell'esecuzione di DataScandataplex.datascans.run: esegui DataScan on demanddataplex.entryGroups.useSchemaJoinEntryLink: utilizza i link di accessoschema-joindataplex.entryGroups.useSchemaJoinAspect: utilizza gli aspetti di unione dello schemadataplex.entryLinks.create: crea link alle vocidataplex.entryLinks.update: aggiorna i link delle vocidataplex.entryLinks.delete: elimina i link alle vocidataplex.entries.link: voci di linkdataplex.entries.update: aggiorna le vocidataplex.entryGroups.useDescriptionsAspect: utilizza gli aspetti della descrizionedataplex.entryGroups.useQueriesAspect: utilizza gli aspetti della query
Generare insight sul set di dati
Console
Nella console Google Cloud , vai a BigQuery Studio.
Nel riquadro Explorer, seleziona il progetto e poi il set di dati per cui vuoi generare approfondimenti.
Fai clic sulla scheda Approfondimenti.
Per generare insight e pubblicarli in Knowledge Catalog, fai clic su Genera e pubblica.
Per generare insight senza pubblicarli in Knowledge Catalog, fai clic su Genera senza pubblicare.
Per ulteriori informazioni sulle differenze tra le modalità Genera e pubblica e Genera senza pubblicare, consulta Modalità per la generazione di approfondimenti sui set di dati.
Se il tuo set di dati si trova in una regione multipla, potrebbe esserti chiesto di selezionare una regione per generare insight. Seleziona una regione corrispondente alla multi-regione in cui verrà creata la scansione degli insight.
Il completamento dei dati degli approfondimenti richiede alcuni minuti. La qualità degli approfondimenti migliora se le tabelle nel set di dati hanno risultati della profilazione dei dati.
Una volta generati gli approfondimenti, BigQuery mostra una descrizione del set di dati, un grafico delle relazioni, una tabella delle relazioni e query tra tabelle di esempio.
REST
Per generare insight in modo programmatico, utilizza l'API DataScans di Knowledge Catalog. A questo scopo, completa i seguenti passaggi:
- Genera una scansione dei dati della documentazione dei dati per il set di dati BigQuery
- Controllare lo stato della scansione della documentazione dei dati
- Verifica la pubblicazione in Knowledge Catalog
Genera una scansione dei dati di documentazione dei dati per il set di dati BigQuery
Crea una scansione dei dati di documentazione dei dati utilizzando il metodo
dataScans.create. Se vuoi, puoi pubblicare questi approfondimenti in Knowledge Catalog impostando il parametrocatalog_publishing_enabledsutrue.Ad esempio:
alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"' gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "catalog_publishing_enabled": true } }'Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo progetto Google Cloud in cui si trova il set di dati
- LOCATION: la regione in cui viene eseguita la scansione dei dati
- DATASCAN_ID: un nome univoco fornito per questa scansione
- DATASET_ID: l'ID del set di dati BigQuery sottoposto a scansione
Avvia il job di scansione della documentazione dei dati utilizzando il metodo
dataScans.run.Ad esempio:
gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans/DATASCAN_ID:runQuesta richiesta restituisce un ID job univoco insieme allo stato iniziale.
Controllare lo stato dell'analisi della documentazione dei dati
Controlla il completamento dell'esecuzione del job di scansione utilizzando il
metodo dataScans.get.
Per recuperare i risultati completi, inclusi gli approfondimenti e lo stato di pubblicazione,
imposta il parametro view su FULL.
Utilizza l'ID job per recuperare lo stato del job. Ad esempio:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL
Il job viene completato quando lo stato è SUCCEEDED o FAILURE.
Una risposta al job riuscita contiene gli insight generati nel campo dataDocumentationResult.
Verifica la pubblicazione in Knowledge Catalog
Se catalog_publishing_enabled è impostato su true, gli approfondimenti vengono
pubblicati in Knowledge Catalog in modo asincrono dopo
il completamento del job di scansione dei dati. Per verificare che gli approfondimenti siano stati salvati in modo permanente, utilizza
l'API Dataplex per esaminare gli aspetti del set di dati.
Anche se gli approfondimenti vengono generati dalla scansione dei dati a livello di set di dati, i link alle voci risultanti vengono archiviati tra le tabelle che collegano. Per verificare queste
relazioni, utilizza il
metodo lookupEntryLinks
per recuperare i link alle voci associati a una voce di tabella specifica.
Per recuperare i metadati del set di dati BigQuery, utilizza il
metodo entries.get.
Per includere tutti gli aspetti, imposta il parametro view su FULL. Ad esempio:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL
Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo progetto Google Cloud in cui è stato configurato DataScan
- LOCATION: la regione in cui risiede il gruppo di voci
- DATASET_PROJECT_ID: l'ID del progetto Google Cloud in cui si trova il set di dati BigQuery
- DATASET: l'ID del set di dati BigQuery
Se la pubblicazione in Knowledge Catalog va a buon fine, al set di dati BigQuery vengono allegati i seguenti aspetti:
- Descrizioni: contiene descrizioni del set di dati create con l'AI
- Query: contiene query SQL pertinenti relative al set di dati
- Relazioni: vengono mantenute come link di voci tra le tabelle presenti nel set di dati
Visualizzare e salvare la descrizione del set di dati
Gemini genera una descrizione in linguaggio naturale del set di dati, riassumendo i tipi di tabelle che contiene e il dominio aziendale che rappresenta. Per salvare questa descrizione nei metadati del set di dati, fai clic su Salva nei dettagli.
Puoi modificare la descrizione prima di salvare i dettagli.
Esplorare il grafico delle relazioni
Il grafico Relazioni fornisce una rappresentazione visiva del modo in cui le tabelle nel set di dati sono correlate tra loro. Mostra le 10 tabelle più connesse come nodi, con linee che rappresentano le relazioni tra di loro.
- Per visualizzare i dettagli della relazione, ad esempio le colonne che uniscono due tabelle, passa il mouse sopra l'arco che collega i nodi della tabella.
- Per riorganizzare il grafico e migliorarne la visibilità, trascina i nodi della tabella.
Utilizzare la tabella delle relazioni
La tabella delle relazioni elenca le relazioni scoperte in formato tabellare. Ogni riga rappresenta una relazione tra due tabelle, mostrando la tabella e la colonna di origine e la tabella e la colonna di destinazione. La colonna Origine indica come è stata determinata la relazione:
- Inferito da LLM. Relazioni dedotte da Gemini in base a nomi e descrizioni di tabelle e colonne nel set di dati.
- In base all'utilizzo. Relazioni estratte dai log delle query, basate su join frequenti.
- Definito dallo schema. Relazioni derivate dalle mappature di chiave primaria e chiave esterna esistenti nello schema della tabella.
Puoi filtrare le relazioni per una tabella specifica o fornire un feedback sulla qualità delle relazioni rilevate. Per esportare la descrizione e le relazioni del set di dati generato in un file JSON, fai clic su Esporta in JSON.
Utilizzare i suggerimenti per le query
In base alle relazioni rilevate, Gemini genera query di esempio. Si tratta di domande in linguaggio naturale con query SQL corrispondenti che uniscono più tabelle nel set di dati.
Per visualizzare una query SQL, fai clic su una domanda.
Per aprire la query nell'editor di query di BigQuery, fai clic su Copia nella query. Puoi quindi eseguire la query o modificarla.
Per fare una domanda aggiuntiva, fai clic su Fai una domanda aggiuntiva, che apre un data canvas senza titolo in cui puoi chattare con Gemini per esplorare i tuoi dati.
Passaggi successivi
- Scopri di più sulla panoramica degli approfondimenti sui dati.
- Scopri come generare insight sulle tabelle.
- Scopri di più sulla profilazione dei dati di Knowledge Catalog.