Informazioni sugli approfondimenti sui dati strutturati

Gli insight sui dati di Knowledge Catalog (in precedenza Dataplex Universal Catalog) generano automaticamente descrizioni, grafici delle relazioni e query SQL dai metadati di tabelle e set di dati. Queste informazioni ti aiutano a comprendere rapidamente la struttura, i contenuti e le relazioni dei dati senza una configurazione manuale estesa. Per approfondire, puoi porre domande di follow-up nel data canvas.

Quando esplorano una tabella nuova e sconosciuta, gli analisti di dati spesso si trovano di fronte al problema del cold start di come iniziare a scrivere le query. Il problema può comportare incertezze sulla struttura dei dati e sui pattern chiave nei dati. La funzionalità di insight sui dati di Knowledge Catalog offre un modo automatizzato per esplorare e comprendere i dati. In questo modo puoi scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.

Come funzionano gli insight sui dati?

Gli insight sui dati utilizzano Gemini per analizzare i metadati e generare quanto segue:

  • Descrizioni: riepiloghi generati dall'AI che spiegano lo scopo del set di dati, la struttura della tabella e i dettagli di colonne specifiche.

  • Query di esempio: query SQL personalizzate progettate specificamente per lo schema e i contenuti del set di dati o della tabella.

  • Grafici delle relazioni: visualizzazioni che mostrano le connessioni e le dipendenze tra le diverse tabelle all'interno del set di dati.

Risorse supportate

Gli insight sui dati sono disponibili per i seguenti tipi di dati strutturati:

  • Set di dati, tabelle e viste BigQuery
  • Tabelle Google Cloud Lakehouse (incluso Apache Iceberg)
  • Tabelle esterne
  • Tabelle del catalogo REST Iceberg

Esempio di esecuzione di insight

Gli insight sui dati generano automaticamente query in linguaggio naturale e i relativi equivalenti SQL in base ai metadati di una tabella.

Considera una tabella denominata telco_churn con i seguenti metadati:

Nome campo Tipo
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Di seguito sono riportate alcune delle query di esempio che gli insight sui dati generano per questa tabella:

  • Identifica i clienti che hanno sottoscritto tutti i servizi premium e che sono clienti da più di 50 mesi.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica il servizio internet con il maggior numero di clienti che hanno abbandonato.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica i tassi di abbandono per segmento tra i clienti di alto valore.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modalità per la generazione di insight sui dati

Quando generi insight sui dati, Knowledge Catalog offre due modalità:

Modalità Descrizione Utilizzo
Genera e pubblica

Salva gli insight sui dati generati in Knowledge Catalog come aspetti dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, si verificano le seguenti azioni:

  • Memorizza le descrizioni di tabelle e colonne in Knowledge Catalog.
  • Acquisisce le query e le domande suggerite come aspetti riutilizzabili
  • Rende gli insight pubblicati accessibili a tutti gli utenti che dispongono dell'accesso appropriato a Knowledge Catalog, garantendo la condivisione delle conoscenze organizzative.
  • Ti consente di modificare e salvare le descrizioni direttamente in Knowledge Catalog.

Utilizza questa modalità per la documentazione dei dati a livello aziendale che è persistente e riutilizzabile o quando crei flussi di lavoro di governance basati sul catalogo.

Genera senza pubblicare

Crea insight sui dati come descrizioni, domande in linguaggio naturale, e query SQL on demand. Genera senza pubblicare non pubblica gli insight in Knowledge Catalog.

Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di ingombrare il catalogo.

Prezzi

Per informazioni dettagliate sui prezzi di questa funzionalità, consulta la panoramica dei prezzi di Gemini in BigQuery.

Località

Puoi utilizzare gli insight sui dati in tutte le località BigQuery. Per scoprire dove Gemini in BigQuery elabora i tuoi dati, consulta Dove Gemini in BigQuery elabora i tuoi dati.

Limitazioni

  • Per i clienti multicloud, i dati di altri cloud non sono disponibili.
  • Gli insight sui dati non supportano i tipi di colonne Geo o JSON.
  • Le esecuzioni di insight non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, rigenera gli insight in BigQuery Studio.

Passaggi successivi