Gli approfondimenti sui dati di Knowledge Catalog (in precedenza Dataplex Universal Catalog) generano automaticamente descrizioni, grafici delle relazioni e query SQL dai metadati di tabelle e set di dati. Queste informazioni ti aiutano a comprendere rapidamente la struttura, i contenuti e le relazioni dei dati senza una configurazione manuale estesa. Per ulteriori indagini, puoi porre domande aggiuntive nel canvas dei dati.
Quando esplorano una tabella nuova e sconosciuta, gli analisti dei dati spesso si trovano di fronte al problema dell'avvio a freddo di come iniziare a scrivere query. Il problema può riguardare incertezza sulla struttura dei dati e sui pattern chiave nei dati. La funzionalità di approfondimenti sui dati di Knowledge Catalog offre un modo automatizzato per esplorare e comprendere i tuoi dati. In questo modo, puoi scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
Panoramica
Gli approfondimenti sui dati utilizzano Gemini per analizzare i metadati e generare quanto segue:
Descrizioni: riepiloghi generati dall'AI che spiegano lo scopo del set di dati, la struttura della tabella e i dettagli di colonne specifiche.
Query di esempio: query SQL personalizzate progettate specificamente per lo schema e il contenuto del set di dati o della tabella.
Grafici delle relazioni: visualizzazioni che mostrano le connessioni e le dipendenze tra le diverse tabelle all'interno del set di dati.
Risorse supportate
Gli approfondimenti sui dati sono disponibili per i seguenti tipi di dati strutturati:
- Set di dati, tabelle e viste BigQuery
- Tabelle Google Cloud Lakehouse (incluso Apache Iceberg)
- Tabelle esterne
- Tabelle del catalogo REST Iceberg
Esempio di esecuzione di approfondimenti
Data Insights genera automaticamente query in linguaggio naturale e i relativi equivalenti SQL in base ai metadati di una tabella.
Considera una tabella denominata telco_churn con i seguenti metadati:
| Nome campo | Tipo |
|---|---|
| CustomerID | STRING |
| Genere | STRING |
| Periodo di incarico | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contratto | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Tasso di abbandono | BOOLEAN |
Di seguito sono riportate alcune delle query di esempio che gli approfondimenti sui dati generano per questa tabella:
Identifica i clienti che hanno sottoscritto tutti i servizi premium e che sono clienti da più di 50 mesi.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifica il servizio internet con il maggior numero di clienti persi.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifica i tassi di abbandono per segmento tra i clienti di alto valore.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modalità per generare insight sui dati
Quando genera approfondimenti sui dati, Knowledge Catalog offre due modalità:
| Modalità | Descrizione | Utilizzo |
|---|---|---|
| Genera e pubblica |
Conserva gli approfondimenti sui dati generati in Knowledge Catalog come aspetti dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, si verificano le seguenti azioni:
|
Utilizza questa modalità per la documentazione dei dati a livello aziendale che persiste ed è riutilizzabile oppure quando crei flussi di lavoro di governance basati sul catalogo. |
| Genera senza pubblicare |
Crea approfondimenti sui dati come descrizioni, domande in linguaggio naturale e query SQL su richiesta. Genera senza pubblicare non pubblica gli approfondimenti in Knowledge Catalog. |
Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di sovraccaricare il catalogo. |
Prezzi
Per informazioni dettagliate sui prezzi di questa funzionalità, vedi Panoramica dei prezzi di Gemini in BigQuery.
Località
Puoi utilizzare gli approfondimenti sui dati in tutte le posizioni BigQuery. Per scoprire dove Gemini in BigQuery elabora i tuoi dati, consulta Dove Gemini in BigQuery elabora i tuoi dati.
Limitazioni
- Per i clienti multi-cloud, i dati di altri cloud non sono disponibili.
- Informazioni sui dati non supporta i tipi di colonne
GeooJSON. - Le esecuzioni di approfondimenti non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, rigenera gli approfondimenti in BigQuery Studio.
Passaggi successivi
- Scopri come generare insight in BigQuery.
- Scopri come generare una scansione di profilazione dei dati.
- Scopri come scrivere query con l'assistenza di Gemini in BigQuery.