Informazioni sugli approfondimenti sui dati strutturati

Gli approfondimenti sui dati di Knowledge Catalog (in precedenza Dataplex Universal Catalog) generano automaticamente descrizioni, grafici delle relazioni e query SQL dai metadati di tabelle e set di dati. Queste informazioni ti aiutano a comprendere rapidamente la struttura, i contenuti e le relazioni dei dati senza una configurazione manuale estesa. Per approfondire, puoi porre domande di follow-up nel data canvas.

Quando esplorano una tabella nuova e sconosciuta, gli analisti di dati spesso si trovano di fronte al problema di cold start di come iniziare a scrivere le query. Il problema può comportare incertezze sulla struttura dei dati e sui pattern chiave nei dati. La funzionalità di approfondimenti sui dati di Knowledge Catalog offre un modo automatizzato per esplorare e comprendere i dati. In questo modo puoi scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.

Come funzionano gli approfondimenti sui dati?

Gli approfondimenti sui dati utilizzano Gemini per analizzare i metadati e generare quanto segue:

  • Descrizioni: riepiloghi generati dall'AI che spiegano lo scopo del set di dati, la struttura della tabella e i dettagli di colonne specifiche.

  • Query di esempio: query SQL personalizzate progettate specificamente per lo schema e i contenuti del set di dati o della tabella.

  • Grafici delle relazioni: visualizzazioni che mostrano le connessioni e le dipendenze tra le diverse tabelle all'interno del set di dati.

Risorse supportate

Gli approfondimenti sui dati sono disponibili per i seguenti tipi di dati strutturati:

  • Set di dati, tabelle e viste BigQuery
  • Tabelle BigLake (incluso Apache Iceberg)
  • Tabelle esterne
  • Tabelle del catalogo REST Iceberg

Esempio di esecuzione di approfondimenti

Gli approfondimenti sui dati generano automaticamente query in linguaggio naturale e i relativi equivalenti SQL in base ai metadati di una tabella.

Considera una tabella denominata telco_churn con i seguenti metadati:

Nome campo Tipo
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Di seguito sono riportate alcune delle query di esempio che gli approfondimenti sui dati generano per questa tabella:

  • Identifica i clienti che hanno sottoscritto tutti i servizi premium e che sono clienti da più di 50 mesi.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica il servizio internet con il maggior numero di clienti che hanno abbandonato.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica i tassi di abbandono per segmento tra i clienti di alto valore.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modalità per la generazione di approfondimenti sui dati

Quando generi approfondimenti sui dati, Knowledge Catalog offre due modalità:

Modalità Descrizione Utilizzo
Genera e pubblica

Persiste gli approfondimenti sui dati generati in Knowledge Catalog come aspetti dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare. Quando utilizzi Genera e pubblica, si verificano le seguenti azioni:

  • Memorizza le descrizioni di tabelle e colonne in Knowledge Catalog.
  • Acquisisce le query e le domande suggerite come aspetti riutilizzabili
  • Rende gli approfondimenti pubblicati accessibili a tutti gli utenti che dispongono dell'accesso appropriato a Knowledge Catalog, garantendo la condivisione della conoscenza organizzativa.
  • Ti consente di modificare e salvare le descrizioni direttamente in Knowledge Catalog.

Utilizza questa modalità per la documentazione dei dati a livello aziendale che è persistente e riutilizzabile o quando crei flussi di lavoro di governance basati sul catalogo.

Genera senza pubblicare

Crea approfondimenti sui dati come descrizioni, domande in linguaggio naturale, e query SQL on demand. Genera senza pubblicare non pubblica gli approfondimenti in Knowledge Catalog.

Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di ingombrare il catalogo.

Prezzi

Per informazioni dettagliate sui prezzi di questa funzionalità, consulta la panoramica dei prezzi di Gemini in BigQuery.

Quote e limiti

Per informazioni su quote e limiti per questa funzionalità, vedi Quote per Gemini in BigQuery.

Località

Puoi utilizzare gli approfondimenti sui dati in tutte le località BigQuery. Per scoprire dove Gemini in BigQuery elabora i tuoi dati, vedi Dove Gemini in BigQuery elabora i tuoi dati.

Limitazioni

  • Per i clienti multicloud, i dati di altri cloud non sono disponibili.
  • Gli approfondimenti sui dati non supportano i tipi di colonne Geo o JSON.
  • Le esecuzioni di approfondimenti non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, rigenera gli approfondimenti in BigQuery Studio.

Passaggi successivi