Panoramica degli approfondimenti sui dati
Questo documento fornisce una panoramica degli approfondimenti sui dati, una funzionalità di Gemini in BigQuery che aiuta ad accelerare l'esplorazione e l'analisi iniziali quando si ha a che fare con dati nuovi o sconosciuti. Data Insights genera automaticamente descrizioni, grafici delle relazioni e query SQL, oltre a domande suggerite in linguaggio naturale, dai metadati di tabelle e set di dati. Queste informazioni ti aiutano a comprendere rapidamente la struttura, i contenuti e le relazioni dei dati senza una configurazione manuale complessa.
Prima di iniziare
Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.
Tipi di approfondimenti sui dati
Puoi generare approfondimenti sui dati a livello di tabella o set di dati:
Per le tabelle:Gemini genera domande in linguaggio naturale e i relativi equivalenti SQL per aiutarti a comprendere i dati all'interno di una singola tabella. Grazie agli approfondimenti sulle tabelle, puoi rilevare pattern, anomalie, valori anomali o problemi di qualità dei dati all'interno di una tabella. Gemini genera anche descrizioni di tabelle e colonne.
Per i set di dati: (Anteprima) Gemini genera un grafico interattivo delle relazioni che mostra le relazioni tra tabelle e le query SQL tra tabelle per aiutarti a capire come sono correlate le tabelle in un set di dati. Tramite i grafici delle relazioni, puoi scoprire come vengono derivati i dati, il che può aiutarti a risolvere problemi di qualità, coerenza o ridondanza. Tramite le query tra tabelle, puoi trovare relazioni più ampie. Ad esempio, puoi calcolare le entrate per segmento di clienti sfruttando i dati di una tabella delle vendite e di una tabella dei clienti.
Per ulteriori indagini, puoi porre domande aggiuntive nel canvas dei dati.
Insight tabella
Gli approfondimenti sulla tabella ti aiutano a comprendere i contenuti, la qualità e i pattern all'interno di una singola tabella BigQuery. Ad esempio, generando query che eseguono analisi statistiche, puoi utilizzare gli insight sulle tabelle per rilevare pattern, anomalie e outlier nei dati. Gli approfondimenti sulle tabelle possono anche aiutarti a rilevare problemi di qualità, soprattutto quando sono disponibili analisi dei profili dei dati per una tabella. Quando generi insight per una tabella, Gemini fornisce la descrizione della tabella, le descrizioni delle colonne e l'output della scansione di profilazione in base ai metadati della tabella. Sono disponibili le seguenti opzioni:
- Genera query:suggerisce domande in linguaggio naturale e fornisce le query SQL corrispondenti per rispondere. In questo modo, puoi scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche senza scrivere codice SQL da zero.
- Genera descrizioni:genera descrizioni per la tabella e le relative colonne. Gemini utilizza l'output della scansione di profilazione (se disponibile) per basare le descrizioni generate su dati reali. Puoi rivedere, modificare e pubblicare queste descrizioni in Dataplex Universal Catalog per migliorare la rilevabilità e la documentazione dei dati.
Informazioni sui set di dati
Gli approfondimenti sul set di dati ti aiutano a comprendere le relazioni e i percorsi di unione in più tabelle all'interno di un set di dati BigQuery, il che fornisce una visione olistica dei contenuti del set di dati. Quando generi insight per un set di dati, Gemini fornisce quanto segue:
- Descrizione del set di dati:fornisce un riepilogo del set di dati generato con l'AI.
- Relazioni:mostra una mappa visiva e interattiva che illustra le relazioni tra le tabelle all'interno del set di dati. Puoi passare il mouse sopra le connessioni per visualizzare i dettagli della relazione, ad esempio le chiavi di join.
- Tabella delle relazioni:presenta una visualizzazione tabellare delle relazioni tra le tabelle, incluse le chiavi esterne e i join dedotti. Le relazioni possono essere definite dallo schema (dai vincoli di chiave primaria ed esterna), basate sull'utilizzo (dai log delle query) oppure Gemini le deduce in base ai nomi e alle descrizioni di tabelle e colonne.
- Suggerimenti per le query:offre query SQL di esempio che mostrano come unire i dati in tabelle diverse, in base alle relazioni identificate.
Esempio di approfondimenti sui dati delle tabelle
Prendi in considerazione una tabella denominata telco_churn con colonne come CustomerID,
Tenure, InternetService, Contract, MonthlyCharges e Churn.
La tabella seguente descrive i metadati della tabella.
| Nome campo | Tipo |
|---|---|
CustomerID |
STRING |
Gender |
STRING |
Tenure |
INT64 |
InternetService |
STRING |
StreamingTV |
STRING |
OnlineBackup |
STRING |
Contract |
STRING |
TechSupport |
STRING |
PaymentMethod |
STRING |
MonthlyCharges |
FLOAT64 |
Churn |
BOOL |
Data Insights genera le seguenti query di esempio per questa tabella:
Identifica i clienti che hanno sottoscritto tutti i servizi premium e sono clienti da più di 50 mesi.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifica il servizio internet con il maggior numero di clienti persi.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY customers DESC LIMIT 1;
Esempio di approfondimenti sui dati del set di dati
Considera un set di dati contenente le tabelle order_items e inventory_items. Gli approfondimenti
del set di dati possono dedurre che order_items.inventory_item_id si riferisce a
inventory_items.id.
In base a queste relazioni, Gemini potrebbe generare la seguente query tra tabelle:
Identifica le prime 5 categorie di prodotti con il prezzo di vendita medio più alto e il relativo costo medio.
SELECT
ii.product_category,
AVG(oi.sale_price) AS avg_sale_price,
AVG(ii.cost) AS avg_cost
FROM
`ecommerce_data.order_items` AS oi
JOIN
`ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
ii.product_category
ORDER BY
avg_sale_price DESC
LIMIT 5;
Flussi di lavoro di approfondimento dei dati
Questa sezione descrive i flussi di lavoro chiave che i diversi ruoli utente possono eseguire utilizzando la funzionalità di approfondimenti sui dati in BigQuery.
Workflows per i consumatori di dati
Questi flussi di lavoro si concentrano sulle attività per data analyst, business analyst e altri utenti che hanno bisogno di trovare, comprendere e analizzare i dati.
Comprendi una tabella BigQuery: comprendi rapidamente lo schema, i contenuti e i potenziali utilizzi di una tabella specifica. Dopo aver selezionato una tabella in BigQuery Studio, puoi eseguire le seguenti attività:
Rivedi le descrizioni di tabelle e colonne generate automaticamente.
Esamina le domande in linguaggio naturale suggerite e le query SQL equivalenti per comprendere le sfumature dei dati.
Adatta ed esegui le query suggerite per iniziare l'analisi.
Per saperne di più sulla generazione e la visualizzazione degli approfondimenti sulle tabelle, consulta Generare approfondimenti sulle tabelle.
Esplora un intero set di dati:scopri le relazioni tra le tabelle all'interno di un set di dati e comprendi la sua struttura complessiva. Dopo aver selezionato un set di dati in BigQuery Studio, puoi eseguire le seguenti attività:
Generare e visualizzare gli approfondimenti del set di dati.
Utilizza il grafico interattivo delle relazioni per visualizzare le connessioni tra le tabelle.
Analizza la tabella delle relazioni per le chiavi di join e i tipi di connessione (definiti dallo schema, basati sull'utilizzo, dedotti dal modello LLM).
Utilizza le query SQL tra tabelle suggerite per eseguire query su più tabelle in modo efficace.
Per saperne di più sulla generazione e la visualizzazione degli approfondimenti sui set di dati, consulta Generare approfondimenti sui set di dati.
Workflows per i produttori di dati
Questi workflow sono destinati a data engineer, analytics engineer e altri professionisti che creano e gestiscono asset di dati.
Generare la documentazione dei dati di base:creare e gestire automaticamente descrizioni dei metadati essenziali. Puoi eseguire le seguenti operazioni:
Dopo la creazione o la modifica della tabella, attiva gli approfondimenti sui dati per generare descrizioni di tabelle e colonne. Puoi anche generare queste descrizioni su larga scala utilizzando l'API di generazione automatica dei metadati di Dataplex Universal Catalog.
Rivedi e perfeziona il testo generato dall'AI per garantire l'accuratezza tecnica e la pertinenza per l'attività.
Per ulteriori informazioni sulla generazione di descrizioni di tabelle e colonne, consulta Generare approfondimenti sulle tabelle.
Migliora la comprensione dei set di dati per gli utenti: semplifica la comprensione e l'utilizzo dei set di dati forniti per i consumatori. Puoi eseguire le seguenti attività:
Genera approfondimenti sui set di dati chiave, in particolare quelli con relazioni complesse.
Assicurati che le scansioni dei profili dei dati vengano eseguite sulle tabelle per fornire un contesto ricco per approfondimenti più accurati e utili.
Per saperne di più, consulta Generare approfondimenti sul set di dati e Basare gli approfondimenti sui risultati della profilazione dei dati.
Workflows per i responsabili dei dati
Questi flussi di lavoro supportano i responsabili dei dati e i team di governance nel mantenimento dell'integrità e dell'affidabilità dei dati.
Convalida e controlla i metadati generati dall'AI: garantisci l'accuratezza e l'affidabilità dei metadati prodotti da Data Insights. Puoi eseguire le seguenti attività:
Controlla regolarmente le descrizioni e le relazioni generate dalla funzionalità Approfondimenti.
Esegui un controllo incrociato delle relazioni dedotte nel grafico delle relazioni con modelli di dati e logica di business consolidati.
Rivedi e correggi le imprecisioni nei metadati generati con l'AI.
Per saperne di più, vedi Generare approfondimenti sulle tabelle e Generare approfondimenti sui set di dati.
Prezzi
Per informazioni dettagliate sui prezzi di questa funzionalità, vedi Panoramica dei prezzi di Gemini in BigQuery.
Quote e limiti
Per informazioni su quote e limiti per questa funzionalità, vedi Quote per Gemini in BigQuery.
Limitazioni
Gli approfondimenti sui dati presentano le seguenti limitazioni:
Gli approfondimenti sui dati sono disponibili per tabelle BigQuery, tabelle BigLake, tabelle esterne e viste.
Per i clienti multi-cloud, i dati di altri cloud non sono disponibili.
Informazioni sui dati non supporta i tipi di colonne
GEOoJSON.Le esecuzioni degli approfondimenti non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, riavvia la pipeline degli approfondimenti.
Per le tabelle con controllo dell'accesso a livello di colonna e autorizzazioni utente limitate, puoi generare approfondimenti se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.
Gemini genera descrizioni delle colonne per un massimo di 350 colonne in una tabella.
Per gli approfondimenti sui set di dati, non puoi modificare le relazioni nel grafico delle relazioni.
La generazione di nuovi approfondimenti sul set di dati sovrascrive quelli precedenti per quel set di dati.
Gli approfondimenti sui set di dati non supportano i set di dati collegati.
Località
Puoi utilizzare gli approfondimenti sui dati in tutte le posizioni BigQuery. Per scoprire dove Gemini in BigQuery elabora i tuoi dati, consulta Dove Gemini in BigQuery elabora i tuoi dati.
Passaggi successivi
Scopri come generare insight sulle tabelle.
Scopri come generare approfondimenti sul set di dati.
Scopri di più sulla profilazione dei dati di Dataplex Universal Catalog.
Scopri come scrivere query con l'assistenza di Gemini in BigQuery.
Scopri di più su Gemini in BigQuery.
Scopri come iterare i risultati delle query con domande in linguaggio naturale utilizzando Data Canvas.