Questo documento spiega come generare, visualizzare e gestire gli approfondimenti sui dati per i tuoi dati strutturati. L'utilizzo di approfondimenti sui dati basati sull'AI ti aiuta ad accelerare l'esplorazione dei dati generando automaticamente descrizioni, grafici delle relazioni e query SQL dai metadati di tabelle e set di dati.
In BigQuery Studio puoi generare approfondimenti sui dati per set di dati, tabelle, viste, tabelle BigLake e tabelle esterne BigQuery.
In Knowledge Catalog, puoi generare approfondimenti sui dati per le tabelle BigLake e del catalogo REST Iceberg.
Prima di iniziare
Prima di utilizzare gli approfondimenti sui dati, assicurati di aver completato i seguenti prerequisiti:
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per utilizzare gli approfondimenti sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Ottieni l'accesso in sola lettura agli approfondimenti generati:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) sul progetto contenente la risorsa -
Leggi i dati della tabella del catalogo REST Iceberg:
Visualizzatore BigLake (
roles/biglake.viewer) sulla risorsa -
Pubblica le descrizioni come aspetti:
Editor Dataplex Catalog (
roles/dataplex.catalogEditor) sulla risorsa -
Pubblica le query come aspetti:
Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner) sulla risorsa
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per utilizzare gli approfondimenti sui dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per utilizzare gli approfondimenti sui dati sono necessarie le seguenti autorizzazioni:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Abilita API
Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto:
- API Dataplex
- API BigQuery
- API Gemini for Google Cloud.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere
i ruoli.
Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, vedi Abilita l'API Gemini for Google Cloud in un progetto Google Cloud .
Preparazione dei dati
Per le tabelle BigLake, assicurati che i dati si trovino in Cloud Storage e che sia stata creata una tabella BigLake.
Per le tabelle del catalogo REST Iceberg, assicurati che le tabelle siano registrate nel metastore BigLake.
Generare insight in BigQuery
Gli approfondimenti sui dati per set di dati, tabelle, viste, tabelle BigLake e tabelle esterne BigQuery vengono generati utilizzando Gemini in BigQuery e possono essere generati solo in BigQuery Studio.
Devi prima configurare Gemini in BigQuery, poi generare gli insight. Dopo aver generato gli insight, puoi visualizzarli e modificarli in Knowledge Catalog.
Per ulteriori informazioni sulla generazione di approfondimenti in BigQuery, consulta i seguenti documenti:
- Panoramica degli approfondimenti sui dati
- Genera approfondimenti sulla tabella
- Generare insight sul set di dati
Genera insight per le tabelle del catalogo REST Iceberg
Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.
In Filtri, seleziona BigLake.
Seleziona la tabella del catalogo Iceberg REST per la quale vuoi generare insight.
Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che gli approfondimenti per questa tabella non sono ancora stati generati.
Per generare insight e allegarli in modo permanente alla tabella come aspetti, fai clic su Genera e pubblica. In questo modo, gli approfondimenti diventano indicizzabili, consultabili e visibili agli altri utenti della tua organizzazione all'interno del Knowledge Catalog.
Per generare approfondimenti e visualizzarli temporaneamente durante la sessione corrente, fai clic su Genera senza pubblicare. Utilizza questa opzione se hai bisogno solo di un'analisi rapida dei dati senza salvare i metadati nel Knowledge Catalog.
Per ulteriori informazioni sulle differenze tra le modalità Genera e pubblica e Genera senza pubblicare, consulta Modalità di generazione degli approfondimenti sui dati.
Seleziona una regione per generare insight e fai clic su Genera.
La compilazione degli approfondimenti richiede alcuni minuti.
Fai clic sulla scheda Approfondimenti e controlla quanto segue:
- Descrizioni: si tratta dei riepiloghi generati con l'AI che spiegano lo scopo della tabella e descrivono in dettaglio colonne specifiche.
- Query di esempio: questo è l'elenco delle query SQL personalizzate progettate specificamente per lo schema e i contenuti del tuo set di dati.
Per visualizzare la query SQL che risponde a una domanda, fai clic sulla domanda.
Esamina gli insight generati per una risorsa
Per visualizzare gli approfondimenti generati per una risorsa, completa i seguenti passaggi:
Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.
Cerca la risorsa per cui vuoi visualizzare gli approfondimenti.
Nei risultati di ricerca, fai clic sulla risorsa per aprire la pagina dei dettagli della voce.
Esamina le Descrizioni e le Query generate per la risorsa selezionata.
Per visualizzare i grafici delle relazioni e capire come si collegano i punti dati, fai clic sulla scheda Relazioni (anteprima). Puoi visualizzare le relazioni a livello di tabella, non a livello di set di dati.
Gestire gli insight delle tabelle
Dopo aver generato e pubblicato gli approfondimenti sulle tabelle, puoi esaminarli e gestirli come aspetti dei metadati in Knowledge Catalog. Gli approfondimenti a livello di tabella includono descrizioni di tabelle e colonne e query di esempio.
Aggiornare le descrizioni generate per una tabella
Puoi aggiornare le descrizioni di tabelle e colonne solo utilizzando l'API Dataplex. Per farlo, utilizza il metodo entries.patch.
Aggiorna le query generate per una tabella
Puoi aggiornare le query generate per una tabella utilizzando sia la console Google Cloud che l'API Dataplex.
Console
Cerca la tabella per cui vuoi aggiornare le query generate.
Nei risultati di ricerca, fai clic sulla tabella per aprire la pagina dei dettagli della voce.
Nella sezione Query, fai clic su Modifica.
Aggiorna la descrizione della query in base alle tue esigenze.
Gestisci la proprietà: per impostazione predefinita, la sorgente è impostata su Agente. Se modifica una query e cambia l'origine in Utente, le esecuzioni successive di generazione di insight non sovrascriveranno le modifiche. Se l'origine rimane Agente, la query potrebbe essere sostituita durante una rigenerazione.
Gestisci override: per impedire l'override di tutte le query durante una nuova esecuzione, puoi impostare l'opzione Gestito dall'utente su True. Ciò vale per l'intero insieme di query per quell'aspetto dei metadati, garantendo che non vengano perse modifiche manuali.
REST
Per aggiornare le query per una tabella, utilizza il metodo entries.patch.
Aggiorna le relazioni generate per una tabella
Puoi aggiornare le relazioni utilizzando solo l'API Dataplex. Per farlo, utilizza il metodo entries.patch.
Gestire gli insight sui set di dati
Gli approfondimenti a livello di set di dati si concentrano su descrizioni di alto livello e query a livello di set di dati.
Aggiornare le descrizioni generate per un set di dati
Puoi aggiornare le descrizioni dei set di dati solo utilizzando l'API Dataplex. Per farlo, utilizza il metodo entries.patch.
Aggiorna le query generate per un set di dati
Puoi aggiornare le query generate per un set di dati utilizzando sia la console Google Cloud che l'API Dataplex.
Console
Cerca il set di dati per cui vuoi aggiornare le query generate.
Nei risultati di ricerca, fai clic sul set di dati per aprire la pagina dei dettagli della voce.
Nella sezione Query, fai clic su Modifica.
Aggiorna la descrizione in base alle esigenze.
Gestisci la proprietà: per impostazione predefinita, la sorgente è impostata su Agente. Se modifica una query e cambia l'origine in Utente, le esecuzioni successive di generazione di insight non sovrascriveranno le modifiche. Se l'origine rimane Agente, la query potrebbe essere sostituita durante una rigenerazione.
Gestisci override: per impedire l'override di tutte le query durante una nuova esecuzione, puoi impostare l'opzione Gestito dall'utente su True. Ciò vale per l'intero insieme di query per quell'aspetto dei metadati, garantendo che non vengano perse modifiche manuali.
REST
Per aggiornare le query per un set di dati, utilizza il metodo entries.patch.
Passaggi successivi
Scopri di più sugli approfondimenti sui dati strutturati.
Scopri come generare insight per dati non strutturati.