Gli approfondimenti sui dati di Knowledge Catalog (in precedenza Dataplex Universal Catalog) generano automaticamente descrizioni, grafici delle relazioni e query SQL dai metadati di tabelle e set di dati. Queste informazioni ti aiutano a comprendere rapidamente la struttura, i contenuti e le relazioni dei dati senza una configurazione manuale estesa. Per approfondire, puoi porre domande di follow-up nel data canvas.
Quando esplorano una tabella nuova e sconosciuta, gli analisti di dati spesso si trovano di fronte al problema di cold start di come iniziare a scrivere le query. Il problema può comportare incertezze sulla struttura dei dati e sui pattern chiave nei dati. La funzionalità di approfondimenti sui dati di Knowledge Catalog offre un modo automatizzato per esplorare e comprendere i dati. In questo modo puoi scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
Come funzionano gli approfondimenti sui dati?
Gli approfondimenti sui dati utilizzano Gemini per analizzare i metadati e generare quanto segue:
Descrizioni: riepiloghi generati dall'AI che spiegano lo scopo del set di dati, la struttura della tabella e i dettagli di colonne specifiche.
Query di esempio: query SQL personalizzate progettate specificamente per lo schema e i contenuti del set di dati o della tabella.
Grafici delle relazioni: visualizzazioni che mostrano le connessioni e le dipendenze tra le diverse tabelle all'interno del set di dati.
Risorse supportate
Gli approfondimenti sui dati sono disponibili per i seguenti tipi di dati strutturati:
- Set di dati, tabelle e viste BigQuery
- Tabelle BigLake (incluso Apache Iceberg)
- Tabelle esterne
- Tabelle del catalogo REST Iceberg
Esempio di esecuzione di approfondimenti
Gli approfondimenti sui dati generano automaticamente query in linguaggio naturale e i relativi equivalenti SQL in base ai metadati di una tabella.
Considera una tabella denominata telco_churn con i seguenti metadati:
| Nome campo | Tipo |
|---|---|
| CustomerID | STRING |
| Gender | STRING |
| Tenure | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contract | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Churn | BOOLEAN |
Di seguito sono riportate alcune delle query di esempio che gli approfondimenti sui dati generano per questa tabella:
Identifica i clienti che hanno sottoscritto tutti i servizi premium e che sono clienti da più di 50 mesi.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifica il servizio internet con il maggior numero di clienti che hanno abbandonato.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifica i tassi di abbandono per segmento tra i clienti di alto valore.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modalità per la generazione di approfondimenti sui dati
Quando generi approfondimenti sui dati, Knowledge Catalog offre due modalità:
| Modalità | Descrizione | Utilizzo |
|---|---|---|
| Genera e pubblica |
Persiste gli approfondimenti sui dati generati in Knowledge Catalog come aspetti dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, si verificano le seguenti azioni:
|
Utilizza questa modalità per la documentazione dei dati a livello aziendale che è persistente e riutilizzabile o quando crei flussi di lavoro di governance basati sul catalogo. |
| Genera senza pubblicare |
Crea approfondimenti sui dati come descrizioni, domande in linguaggio naturale, e query SQL on demand. Genera senza pubblicare non pubblica gli approfondimenti in Knowledge Catalog. |
Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di ingombrare il catalogo. |
Prezzi
Per informazioni dettagliate sui prezzi di questa funzionalità, consulta la panoramica dei prezzi di Gemini in BigQuery.
Quote e limiti
Per informazioni su quote e limiti per questa funzionalità, vedi Quote per Gemini in BigQuery.
Località
Puoi utilizzare gli approfondimenti sui dati in tutte le località BigQuery. Per scoprire dove Gemini in BigQuery elabora i tuoi dati, vedi Dove Gemini in BigQuery elabora i tuoi dati.
Limitazioni
- Per i clienti multicloud, i dati di altri cloud non sono disponibili.
- Gli approfondimenti sui dati non supportano i tipi di colonne
GeooJSON. - Le esecuzioni di approfondimenti non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, rigenera gli approfondimenti in BigQuery Studio.
Passaggi successivi
- Scopri come generare approfondimenti in BigQuery.
- Scopri come generare una scansione di profilazione dei dati.
- Scopri come scrivere query con l'assistenza di Gemini in BigQuery.