Generare approfondimenti sui dati in BigQuery

Gli approfondimenti sui dati sono un modo automatizzato per esplorare, comprendere e organizzare i dati. Con gli approfondimenti sui dati, Gemini in BigQuery genera domande in linguaggio naturale e le query SQL per rispondere, in base ai metadati della tabella. Questi approfondimenti ti aiutano a scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.

Puoi anche utilizzare gli approfondimenti sui dati per generare descrizioni di tabelle e colonne in base ai metadati delle tabelle e pubblicarli in Dataplex Universal Catalog. Questa funzionalità ti aiuta a documentare i dati per un'analisi significativa e migliora la rilevabilità dei set di dati.

Questa pagina descrive le funzionalità chiave degli approfondimenti sui dati e la procedura per automatizzare la generazione di query per l'esplorazione approfondita dei dati.

Prima di iniziare

Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.

Ruoli obbligatori

Per creare, gestire e recuperare approfondimenti sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per ottenere l'accesso di sola lettura agli approfondimenti generati, chiedi all'amministratore di concederti il seguente ruolo IAM:

Per pubblicare gli approfondimenti sui dati in Dataplex Universal Catalog, chiedi all'amministratore di concederti i seguenti ruoli IAM per la risorsa:

Per abilitare le API, chiedi all'amministratore di concederti il seguente ruolo IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti. Per vedere quali sono esattamente le autorizzazioni richieste per generare insight, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Abilita API

Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto: API Dataplex, API BigQuery e API Gemini in Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Per saperne di più su come abilitare l'API Gemini for Google Cloud, vedi Abilitare l'API Gemini for Google Cloud in un progetto Google Cloud .

Informazioni sugli approfondimenti sui dati

Quando esplorano una tabella nuova e sconosciuta, gli analisti di dati spesso si trovano di fronte al problema dell'avvio a freddo. Il problema spesso riguarda incertezze sulla struttura dei dati, sui pattern chiave e sugli insight pertinenti nei dati, il che rende difficile iniziare a scrivere query.

Gli approfondimenti sui dati risolvono il problema dell'avvio a freddo generando automaticamente query in linguaggio naturale e i relativi equivalenti SQL in base ai metadati di una tabella. Anziché iniziare con un editor di query vuoto, puoi iniziare rapidamente l'esplorazione dei dati con query significative che offrono insight preziosi. Per ulteriori indagini, puoi fare domande aggiuntive nel canvas dei dati.

Esempio di esecuzione di approfondimenti

Considera una tabella denominata telco_churn con i seguenti metadati:

Nome campo Tipo
CustomerID STRING
Genere STRING
Periodo di incarico INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contratto STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Tasso di abbandono BOOLEAN

Di seguito sono riportate alcune delle query di esempio che gli approfondimenti sui dati generano per questa tabella:

  • Identifica i clienti che hanno sottoscritto tutti i servizi premium e che sono clienti da più di 50 mesi.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica quale servizio internet ha il maggior numero di clienti persi.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica i tassi di abbandono per segmento tra i clienti di alto valore.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modalità per generare insight

BigQuery offre due modalità per la generazione di insight:

Modalità Descrizione Utilizzo
Genera e pubblica (anteprima)

Conserva gli approfondimenti generati in Dataplex Universal Catalog come aspetti dei metadati. Devi disporre delle autorizzazioni necessarie per pubblicare.

Quando utilizzi Genera e pubblica, si verificano le seguenti azioni:

  • Le descrizioni di tabelle e colonne vengono archiviate in Dataplex Universal Catalog.
  • Le query e le domande suggerite vengono acquisite come aspetti riutilizzabili.
  • Gli approfondimenti pubblicati diventano accessibili a tutti gli utenti che dispongono dell'accesso appropriato a Dataplex Universal Catalog, garantendo la condivisione delle conoscenze dell'organizzazione.
  • Puoi modificare e salvare le descrizioni direttamente in Dataplex Universal Catalog.
Utilizza questa modalità per la documentazione dei dati a livello aziendale che deve essere mantenuta e riutilizzata o quando crei flussi di lavoro di governance basati su cataloghi.
Genera senza pubblicare Crea approfondimenti (descrizioni, domande in linguaggio naturale e query SQL) su richiesta. Gli approfondimenti non vengono pubblicati in Dataplex Universal Catalog. Utilizza questa modalità per un'esplorazione rapida e ad hoc per evitare di sovraccaricare il catalogo.

Best practice per migliorare gli approfondimenti generati

Per migliorare l'accuratezza degli approfondimenti generati, segui queste best practice:

Basare gli approfondimenti sui risultati della profilazione dei dati

Nell'AI generativa, il grounding è la capacità di collegare l'output del modello a fonti di informazione verificabili. Puoi basare gli approfondimenti generati sui risultati della profilazione dei dati. La profilazione dei dati analizza le colonne nelle tabelle BigQuery e identifica le caratteristiche statistiche comuni, come i valori tipici dei dati e la distribuzione dei dati. Quando crei una scansione di profilazione dei dati per una tabella, puoi scegliere di pubblicare i risultati della scansione nelle pagine di BigQuery e Dataplex Universal Catalog nella console Google Cloud . BigQuery utilizza i risultati della profilazione dei dati per creare query più accurate e pertinenti eseguendo le seguenti operazioni:

  1. Analizza i risultati della profilazione dei dati per identificare pattern, tendenze o outlier interessanti nei dati.
  2. Genera query incentrate su questi pattern, tendenze o valori anomali per scoprire informazioni.
  3. Convalida le query generate in base ai risultati della profilazione dei dati per garantire che le query restituiscano risultati significativi.

Senza le scansioni di profilazione dei dati, si verificano le seguenti situazioni:

  • Le query generate hanno maggiori probabilità di includere clausole imprecise o produrre risultati privi di significato.
  • Le descrizioni delle colonne generate si basano solo sul nome della colonna.

Assicurati che la scansione di profilazione dei dati per la tua tabella sia aggiornata e che i risultati siano pubblicati in BigQuery.

Puoi modificare le impostazioni di profilazione dei dati per aumentare le dimensioni del campionamento e filtrare righe e colonne. Dopo aver eseguito una nuova scansione di profilazione dei dati, rigenera gli approfondimenti.

Aggiungere una descrizione della tabella

Descrizioni dettagliate delle tabelle che descrivono cosa vuoi analizzare nella tabella possono aiutare Gemini in BigQuery a produrre approfondimenti più pertinenti. Dopo aver aggiunto una descrizione della tabella, rigenera gli approfondimenti.

Ad esempio, potresti aggiungere la seguente descrizione alla tabella telco_churn: "Questa tabella monitora i dati sul churn dei clienti, inclusi i dettagli dell'abbonamento, la durata e l'utilizzo del servizio, per prevedere il comportamento di churn dei clienti".

Se salvi la descrizione della tabella generata da Gemini, questa descrizione viene utilizzata per generare approfondimenti futuri.

Aggiungi descrizioni delle colonne

Le descrizioni delle colonne che spiegano cosa rappresenta ciascuna colonna o come una colonna si relaziona a un'altra possono migliorare la qualità degli insight. Dopo aver aggiornato le descrizioni delle colonne nella tabella, rigenera gli approfondimenti.

Ad esempio, potresti aggiungere le seguenti descrizioni a colonne specifiche della tabella telco_churn:

  • Tenure: "Il numero di mesi in cui il cliente ha utilizzato il servizio".
  • Churn: "Se il cliente ha smesso di utilizzare il servizio. TRUE indica che il cliente non utilizza più il servizio, FALSE indica che il cliente è attivo."

Se salvi le descrizioni delle colonne generate da Gemini, queste descrizioni vengono utilizzate per generare insight futuri.

Generare insight per una tabella BigQuery

Console

Per generare approfondimenti per una tabella BigQuery, devi accedere alla voce della tabella in BigQuery utilizzando BigQuery Studio.

  1. Nella console Google Cloud , vai a BigQuery Studio.

    Vai a BigQuery Studio

  2. Nel riquadro a sinistra, fai clic su Explorer:

    Pulsante evidenziato per il riquadro Spazio di esplorazione.

    Se non vedi il riquadro a sinistra, fai clic su Espandi riquadro a sinistra per aprirlo.

  3. Nel riquadro Explorer, fai clic su Set di dati e poi seleziona il tuo set di dati.

  4. Fai clic su Panoramica > Tabelle, quindi seleziona la tabella per cui vuoi generare approfondimenti.

  5. Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che gli approfondimenti per questa tabella non sono ancora stati generati.

  6. Per generare insight e pubblicarli in Dataplex Universal Catalog, fai clic su Genera e pubblica (Anteprima).

    Per generare insight senza pubblicarli in Dataplex Universal Catalog, fai clic su Genera senza pubblicare.

    Per ulteriori informazioni sulle differenze tra le modalità Genera e pubblica e Genera senza pubblicare, consulta Modalità di generazione degli approfondimenti.

  7. Seleziona una regione per generare insight e fai clic su Genera.

    La compilazione degli approfondimenti richiede alcuni minuti.

    Se sono disponibili risultati della profilazione dei dati pubblicati per la tabella, questi vengono utilizzati per generare approfondimenti. In caso contrario, gli approfondimenti vengono generati in base ai nomi e alle descrizioni delle colonne.

  8. Nella scheda Insight, esplora le domande in linguaggio naturale generate.

  9. Per visualizzare la query SQL che risponde a una domanda, fai clic sulla domanda.

  10. Per aprire una query in BigQuery, fai clic su Copia in Query.

  11. Per fare domande aggiuntive:

    1. Fai clic su Fai una domanda aggiuntiva. La query si apre in un nuovo data canvas.

    2. Fai clic su Esegui, poi su Esegui query su questi risultati.

    3. Per porre una domanda di follow-up, inserisci un prompt nel campo Linguaggio naturale o modifica l'SQL nell'editor query.

  12. Per generare un nuovo insieme di query, fai clic su Genera approfondimenti e attiva di nuovo la pipeline.

Dopo aver generato insight per una tabella, chiunque disponga dell'autorizzazione dataplex.datascans.getData e dell'accesso alla tabella può visualizzarli.

REST

Per generare approfondimenti per le tabelle BigQuery, utilizza il tipo di scansione DATA_DOCUMENTATION supportato dall'API DataScans di Dataplex Universal Catalog. Queste scansioni generano metadati, tra cui query SQL approfondite per l'esplorazione dei dati, descrizioni dello schema e riepiloghi a livello di tabella.

Per generare approfondimenti sui dati per una tabella BigQuery:

  1. (Facoltativo) Crea una scansione di profilazione dei dati per la tabella. La presenza di queste scansioni riduce le allucinazioni e le approssimazioni di Gemini, in quanto basano l'output su valori reali presenti nei dati.

    1. Crea una scansione del profilo di dati utilizzando il metodo dataScans.create.

    2. Esegui la scansione del profilo di dati utilizzando il metodo dataScans.run. Attendi il completamento dell'esecuzione.

    3. Pubblica i risultati della scansione nella tabella BigQuery allegando le seguenti etichette di profilazione dei dati alla tabella:

      • dataplex-dp-published-scan:DATASCAN_ID
      • dataplex-dp-published-project:PROJECT_ID
      • dataplex-dp-published-location:LOCATION

      Per ulteriori informazioni, vedi Aggiungere etichette a tabelle e viste.

  2. Genera una scansione dei dati di documentazione dei dati per la tabella BigQuery:

    1. Crea una scansione dei dati di documentazione dei dati utilizzando il metodo dataScans.create.

      Ad esempio:

      gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN_ID -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger":{ "onDemand":{} } }, "type":"DATA_DOCUMENTATION", "dataDocumentationSpec":{}}'
      

      Sostituisci quanto segue:

      • PROJECT_ID: l'ID del tuo progetto Google Cloud in cui si trova il set di dati
      • LOCATION: la regione in cui viene eseguita la scansione dei dati
      • DATASCAN_ID: un nome univoco che fornisci per questa scansione
      • DATASET_ID: l'ID del set di dati BigQuery sottoposto a scansione
      • TABLE_ID: l'ID della tabella BigQuery sottoposta a scansione
    2. Avvia il job di scansione della documentazione dei dati utilizzando il metodo dataScans.run.

      Ad esempio:

      gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID:run
      

      Questa richiesta restituisce un ID job univoco insieme allo stato iniziale.

    3. Controlla il completamento dell'esecuzione del job di scansione utilizzando il metodo dataScans.get.

      Utilizza l'ID job per recuperare lo stato del job. Ad esempio:

      gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID
      

      Il job viene completato quando lo stato è SUCCEEDED o FAILURE.

    4. Pubblica i risultati della scansione nella tabella BigQuery aggiungendo le seguenti etichette di documentazione dei dati alla tabella:

      • dataplex-data-documentation-published-scan:DATASCAN_ID
      • dataplex-data-documentation-published-project:PROJECT_ID
      • dataplex-data-documentation-published-location:LOCATION

Generare approfondimenti per una tabella esterna BigQuery

BigQuery Data Insights supporta la generazione di insight per le tabelle esterne BigQuery con dati in Cloud Storage. Tu e il account di servizio Dataplex Universal Catalog per il progetto attuale dovete disporre del ruolo Visualizzatore oggetti Storage (roles/storage.objectViewer) sul bucket Cloud Storage che contiene i dati. Per saperne di più, consulta Aggiungere un principal a una policy a livello di bucket.

Per generare approfondimenti per una tabella esterna BigQuery, segui le istruzioni descritte nella sezione Generare approfondimenti per una tabella BigQuery di questo documento.

Genera insight per una tabella BigLake

Per generare approfondimenti per una tabella BigLake, segui questi passaggi:

  1. Attiva l'API BigQuery Connection nel tuo progetto.

    Abilita l'API BigQuery Connection

  2. Crea una connessione BigQuery. Per saperne di più, consulta Gestire le connessioni.

  3. Concedi il ruolo IAM Visualizzatore oggetti Storage (roles/storage.objectViewer) all'account di servizio corrispondente alla connessione BigQuery che hai creato.

    Puoi recuperare l'ID account di servizio dai dettagli della connessione.

  4. Per generare insight, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.

Generare descrizioni di tabelle e colonne

Gemini in BigQuery genera automaticamente le descrizioni di tabelle e colonne quando generi insight sui dati. Puoi modificare queste descrizioni in base alle necessità e poi salvarle nei metadati della tabella. Le descrizioni salvate vengono utilizzate per generare insight futuri.

Controllare la lingua di generazione

Puoi guidare Gemini a generare descrizioni di tabelle e colonne in una lingua specifica. Per farlo, aggiungi una breve direttiva (ad esempio, "Genera descrizioni di tabelle e colonne utilizzando la lingua francese") alla descrizione esistente della tabella prima di generare gli approfondimenti sui dati.

Quando generi insight, Gemini interpreta questa direttiva e produce i metadati nella lingua richiesta. Questo meccanismo funziona perché Gemini utilizza le descrizioni delle tabelle esistenti come contesto quando ne genera di nuove.

Per un elenco delle lingue supportate, consulta Lingue supportate da Gemini.

Generare descrizioni

Per generare descrizioni di tabelle e colonne:

  1. Genera insight seguendo le istruzioni descritte nella sezione pertinente di questo documento:

  2. Fai clic sulla scheda Schema.

  3. Fai clic su Visualizza descrizioni delle colonne.

    Vengono visualizzate la descrizione della tabella e le descrizioni delle colonne generate.

  4. Per modificare e salvare la descrizione della tabella generata:

    1. Nella sezione Descrizione tabella, fai clic su Salva nei dettagli.

    2. Per sostituire la descrizione attuale con quella generata, fai clic su Copia descrizione suggerita.

    3. Modifica la descrizione della tabella in base alle tue esigenze, quindi fai clic su Salva nei dettagli.

      La descrizione della tabella viene aggiornata immediatamente.

  5. Per modificare e salvare le descrizioni delle colonne generate:

    1. Nella sezione Descrizioni delle colonne, fai clic su Salva nello schema.

      Le descrizioni delle colonne generate vengono inserite nel campo Nuova descrizione per ogni colonna.

    2. Modifica le descrizioni delle colonne in base alle esigenze, quindi fai clic su Salva.

      Le descrizioni delle colonne vengono aggiornate immediatamente.

  6. Per chiudere il riquadro di anteprima, fai clic su Chiudi.

Prezzi

Per informazioni dettagliate sui prezzi di questa funzionalità, vedi Panoramica dei prezzi di Gemini in BigQuery.

Quote e limiti

Per informazioni su quote e limiti per questa funzionalità, vedi Quote per Gemini in BigQuery.

Limitazioni

  • Data Insights è disponibile per tabelle BigQuery, tabelle BigLake, tabelle esterne e viste.
  • Per i clienti multicloud, i dati di altri cloud non sono disponibili.
  • Informazioni sui dati non supporta i tipi di colonne Geo o JSON.
  • Le esecuzioni degli approfondimenti non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, riavvia la pipeline degli approfondimenti.
  • Per le tabelle con controllo dell'accesso (ACL) a livello di colonna e autorizzazioni utente limitate, puoi generare approfondimenti se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.
  • Le descrizioni delle colonne vengono generate per un massimo di 350 colonne in una tabella.

Località

Puoi utilizzare gli approfondimenti sui dati in tutte le località BigQuery. Gemini in BigQuery opera a livello globale, quindi non puoi limitare il trattamento dei dati a una regione specifica. Per scoprire di più sulle località in cui Gemini in BigQuery elabora i dati, consulta Località di pubblicazione di Gemini.

Passaggi successivi