Utilizzare gli approfondimenti sui dati per i dati strutturati

Questo documento spiega come generare, visualizzare e gestire gli approfondimenti sui dati per i tuoi dati strutturati. L'utilizzo di approfondimenti sui dati basati sull'AI ti aiuta ad accelerare l'esplorazione dei dati generando automaticamente descrizioni, grafici delle relazioni e query SQL dai metadati di tabelle e set di dati.

In BigQuery Studio puoi generare approfondimenti sui dati per i dataset, le tabelle, le viste, Google Cloud le tabelle Lakehouse, e le tabelle esterne BigQuery.

In Knowledge Catalog, puoi generare approfondimenti sui dati per le tabelle del catalogo REST Iceberg di Lakehouse.

Prima di iniziare

Prima di utilizzare gli approfondimenti sui dati, assicurati di aver completato i seguenti prerequisiti:

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per utilizzare gli approfondimenti sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per utilizzare gli approfondimenti sui dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per utilizzare gli approfondimenti sui dati sono necessarie le seguenti autorizzazioni:

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Abilita API

Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto:

  • API Dataplex
  • API BigQuery
  • API Gemini for Google Cloud

Ruoli richiesti per abilitare le API

Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

Abilita le API

Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, vedi Abilita l'API Gemini for Google Cloud in un progetto Google Cloud .

Preparazione dei dati

Per le Google Cloud tabelle lakehouse, assicurati che i dati si trovino in Cloud Storage e di aver creato una Google Cloud tabella lakehouse.

Per le tabelle del catalogo REST Iceberg, assicurati che siano registrate nel catalogo runtime Lakehouse.

Generare insight in BigQuery

Gli approfondimenti sui dati per set di dati, tabelle, viste, tabelle Lakehouse e tabelle esterne BigQuery vengono generati utilizzando Gemini in BigQuery e possono essere generati solo in BigQuery Studio.Google Cloud

Devi prima configurare Gemini in BigQuery, poi generare gli insight. Dopo aver generato gli insight, puoi visualizzarli e modificarli in Knowledge Catalog.

Per ulteriori informazioni sulla generazione di approfondimenti in BigQuery, consulta i seguenti documenti:

Genera insight per le tabelle del catalogo REST Iceberg

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. In Filtri, seleziona Lakehouse.

  3. Seleziona la tabella del catalogo REST Iceberg per cui vuoi generare insight.

  4. Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che gli approfondimenti per questa tabella non sono ancora stati generati.

  5. Per generare insight e allegarli in modo permanente alla tabella come aspetti, fai clic su Genera e pubblica. In questo modo, gli approfondimenti diventano indicizzabili, consultabili e visibili agli altri utenti della tua organizzazione all'interno del Knowledge Catalog.

    Per generare approfondimenti e visualizzarli temporaneamente durante la sessione corrente, fai clic su Genera senza pubblicare. Utilizza questa opzione se hai bisogno solo di un'analisi rapida dei dati senza salvare i metadati in Knowledge Catalog.

    Per ulteriori informazioni sulle differenze tra le modalità Genera e pubblica e Genera senza pubblicare, consulta Modalità di generazione degli approfondimenti sui dati.

  6. Seleziona una regione per generare insight e fai clic su Genera.

    Il completamento dei dati degli approfondimenti richiede alcuni minuti.

  7. Fai clic sulla scheda Approfondimenti e controlla quanto segue:

    • Descrizioni: si tratta dei riepiloghi generati con l'AI che spiegano lo scopo della tabella e descrivono in dettaglio colonne specifiche.
    • Query di esempio: questo è l'elenco delle query SQL personalizzate progettate specificamente per lo schema e i contenuti del tuo set di dati.
  8. Per visualizzare la query SQL che risponde a una domanda, fai clic sulla domanda.

Esamina gli insight generati per una risorsa

Per visualizzare gli approfondimenti generati per una risorsa, completa i seguenti passaggi:

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. Cerca la risorsa per cui vuoi visualizzare gli approfondimenti.

  3. Nei risultati di ricerca, fai clic sulla risorsa per aprire la pagina dei dettagli della voce.

  4. Esamina le descrizioni e le query generate per la risorsa selezionata.

  5. Per visualizzare i grafici delle relazioni e capire come si collegano i punti dati, fai clic sulla scheda Relazioni (anteprima). Puoi visualizzare le relazioni a livello di tabella, non a livello di set di dati.

Gestire gli insight delle tabelle

Dopo aver generato e pubblicato gli approfondimenti sulle tabelle, puoi esaminarli e gestirli come aspetti dei metadati in Knowledge Catalog. Gli approfondimenti a livello di tabella includono descrizioni di tabelle e colonne e query di esempio.

Aggiornare le descrizioni generate per una tabella

Puoi aggiornare le descrizioni di tabelle e colonne solo utilizzando l'API Dataplex. Per farlo, utilizza il metodo entries.patch.

Aggiorna le query generate per una tabella

Puoi aggiornare le query generate per una tabella utilizzando sia la console Google Cloud che l'API Dataplex.

Console

  1. Cerca la tabella per cui vuoi aggiornare le query generate.

  2. Nei risultati di ricerca, fai clic sulla tabella per aprire la pagina dei dettagli della voce.

  3. Nella sezione Query, fai clic su Modifica.

  4. Aggiorna la descrizione della query in base alle tue esigenze.

  5. Gestisci la proprietà: per impostazione predefinita, la sorgente è impostata su Agente. Se modifica una query e cambia l'origine in Utente, le esecuzioni successive di generazione di insight non sovrascriveranno le modifiche. Se l'origine rimane Agente, la query potrebbe essere sostituita durante una rigenerazione.

  6. Gestisci override: per impedire l'override di tutte le query durante una nuova esecuzione, puoi impostare l'opzione Gestito dall'utente su True. Ciò vale per l'intero insieme di query per quell'aspetto dei metadati, garantendo che non vengano perse modifiche manuali.

REST

Per aggiornare le query per una tabella, utilizza il metodo entries.patch.

Aggiorna le relazioni generate per una tabella

Puoi aggiornare le relazioni utilizzando solo l'API Dataplex. Per farlo, utilizza il metodo entries.patch.

Gestire gli insight sui set di dati

Gli approfondimenti a livello di set di dati si concentrano su descrizioni di alto livello e query a livello di set di dati.

Aggiornare le descrizioni generate per un set di dati

Puoi aggiornare le descrizioni dei set di dati solo utilizzando l'API Dataplex. Per farlo, utilizza il metodo entries.patch.

Aggiorna le query generate per un set di dati

Puoi aggiornare le query generate per un set di dati utilizzando sia la console Google Cloud che l'API Dataplex.

Console

  1. Cerca il set di dati per cui vuoi aggiornare le query generate.

  2. Nei risultati di ricerca, fai clic sul set di dati per aprire la pagina dei dettagli della voce.

  3. Nella sezione Query, fai clic su Modifica.

  4. Aggiorna la descrizione in base alle esigenze.

  5. Gestisci la proprietà: per impostazione predefinita, la sorgente è impostata su Agente. Se modifica una query e cambia l'origine in Utente, le esecuzioni successive di generazione di insight non sovrascriveranno le modifiche. Se l'origine rimane Agente, la query potrebbe essere sostituita durante una rigenerazione.

  6. Gestisci override: per impedire l'override di tutte le query durante una nuova esecuzione, puoi impostare l'opzione Gestito dall'utente su True. Ciò vale per l'intero insieme di query per quell'aspetto dei metadati, garantendo che non vengano perse modifiche manuali.

REST

Per aggiornare le query per un set di dati, utilizza il metodo entries.patch.

Aggiornare i link alle voci generate per un set di dati

Le relazioni scoperte da Data Insights vengono archiviate come link di voci tra le voci della tabella. Questi link includono un aspetto schema-join che descrive come si collegano le tabelle.

Per modificare queste relazioni o fornire override manuali, devi utilizzare l'API Dataplex.

Comportamento di aggiornamento dei link delle voci

Quando gestisci le relazioni utilizzando l'API, è importante capire come gli aggiornamenti manuali dell'API interagiscono con le scansioni automatiche in background per non sovrascrivere accidentalmente i dati.

  • Aggiornamenti manuali (comportamento a livello di API): l'API UpdateEntryLink utilizza il metodo PATCH per eseguire la sostituzione a livello di aspetto:

    • Sostituzione completa dell'aspetto: se includi l'aspetto schema-join nella richiesta di aggiornamento, Knowledge Catalog sostituisce l'intero aspetto esistente con quello nuovo che fornisci.

    • Nessuna unione automatica: l'API non unisce automaticamente le nuove voci all'elenco interno joins. Se invii un payload contenente una sola unione, tutte le unioni esistenti in precedenza all'interno di questo aspetto vengono rimosse.

  • Scansioni automatizzate (comportamento a livello di sistema): le scansioni automatizzate, come gli approfondimenti sui dati, eseguono una logica di unione specializzata prima di chiamare l'API per garantire che i metadati ad alta certezza vengano conservati in base alla loro origine:

    • Priorità dell'origine: se più origini identificano la stessa relazione, Knowledge Catalog assegna loro la priorità nel seguente ordine:

      1. USER (Modifiche manuali)
      2. TABLE_CONSTRAINTS
      3. QUERY_HISTORY
      4. AGENT (suggerimenti LLM)
    • Aggiornamento LLM: le relazioni derivate dall'origine AGENT sono dinamiche. Se una scansione successiva non consiglia più la relazione, questa viene rimossa.

Aggiornare i link delle voci

Per visualizzare e modificare i link di accesso, completa i seguenti passaggi:

  1. Identifica il link della voce.

    Prima di poter aggiornare una relazione, trova il nome della risorsa elencando tutti i link alle voci che coinvolgono una voce di tabella specifica:

    gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto Google Cloud
    • LOCATION: la regione in cui viene attivata la scansione dei dati
    • TABLE_ENTRY_NAME: il nome della risorsa completo della voce della tabella BigQuery (ad esempio, bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
  2. Aggiorna il link della voce.

    Per modificare l'aspetto schema-join del link alla voce di destinazione, utilizza il metodo PATCH:

    gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
    -d '{
      "aspects": {
        "dataplex-types.global.schema-join": {
          "data": {
            "joins": [
              {
                "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
                "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
                "type": "JOIN",
                "inferenceSource": "USER"
              }
            ],
            "userManaged": false 
          }
        }
      }
    }'
    

    Sostituisci quanto segue:

    • ENTRYLINK_ID: l'ID del link alla voce recuperato nel passaggio di identificazione precedente
    • DATASET_ID: l'ID del tuo set di dati BigQuery
    • SOURCE_TABLE: il nome della tabella di origine
    • SOURCE_FIELD: il nome della colonna utilizzata per il join nella tabella di origine
    • TARGET_TABLE: il nome della tabella di destinazione
    • TARGET_FIELD: il nome della colonna utilizzata per il join nella tabella di destinazione

Passaggi successivi