Data Insights per i dati non strutturati utilizza Vertex AI per trasformare i file non strutturati e non elaborati in Cloud Storage in asset strutturati e interrogabili in BigQuery. Gli approfondimenti sui dati non strutturati sono ottimizzati per i file PDF.
Questo documento descrive come configurare le autorizzazioni necessarie, scoprire i dati non strutturati, visualizzare gli approfondimenti generati ed estrarre i dati in BigQuery.
Prima di iniziare
Prima di utilizzare gli approfondimenti sui dati per i dati non strutturati, assicurati di disporre delle autorizzazioni e delle API richieste.
Abilita API
Abilita le seguenti API nel tuo progetto:
dataplex.googleapis.combigquery.googleapis.comaiplatform.googleapis.com(Vertex AI)
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere
i ruoli.
Ruoli e autorizzazioni richiesti
Per configurare ed eseguire gli approfondimenti sui dati non strutturati, assicurati che tu e i service account utilizzati da Knowledge Catalog e BigQuery disponiate dei ruoli e delle autorizzazioni Identity and Access Management (IAM) richiesti.
È necessaria una scansione di rilevamento per individuare automaticamente i file non strutturati in Cloud Storage e catalogarli nelle tabelle degli oggetti BigLake in modo che possano essere analizzati. Per le autorizzazioni generali richieste per eseguire analisi di rilevamento sui bucket Cloud Storage, consulta Rilevare e catalogare i dati di Cloud Storage.
Riepilogo delle identità e dei ruoli richiesti
| Tipo di identità | Formato tipico del principal | Ruoli IAM richiesti | Scopo principale |
|---|---|---|---|
| Utente finale | Il tuo account utente Google Cloud |
|
Utilizzi questi ruoli per abilitare le API, configurare e visualizzare le scansioni di rilevamento e attivare l'estrazione dati finale. |
| Agente di rilevamento di Knowledge Catalog Universal Catalog | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com |
|
Questo service agent gestito da Google individua i tuoi file non strutturati in Cloud Storage, li cataloga e chiama Vertex AI per generare schemi e metadati dedotti. |
| Account di servizio connessione BigQuery | service-<var>PROJECT_NUMBER</var>@gcp-sa-bigqueryconnection.iam.gserviceaccount.com |
|
Collega BigQuery a uno spazio di archiviazione esterno, consentendo a BigQuery di leggere i file non elaborati, creare tabelle di oggetti BigLake ed eseguire l'inferenza dell'AI senza esporre le credenziali utente personali. |
| Account di servizio di esecuzione della pipeline (facoltativo) | Un account di servizio gestito dall'utente |
|
Se scegli di estrarre i dati utilizzando una pipeline automatizzata, questa identità esegue i job in background per materializzare le entità generate dall'AI nelle tabelle BigQuery. |
| Account di servizio Dataform predefinito (facoltativo) | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com |
|
Quando utilizzi il metodo di estrazione della pipeline, Dataform richiede l'autorizzazione a utilizzare l'identità del account di servizio di esecuzione della pipeline per orchestrare il flusso di lavoro. |
Ruoli e autorizzazioni utente finale
Per assicurarti che il tuo account utente disponga delle autorizzazioni necessarie per creare scansioni di rilevamento, visualizzare approfondimenti ed estrarre dati, chiedi all'amministratore di concedere al tuo account utente i seguenti ruoli IAM sul progetto:
-
Crea e gestisci scansioni di rilevamento:
Dataplex DataScan Administrator (
roles/dataplex.dataScanAdmin) -
Visualizza le scansioni e gli approfondimenti della scoperta:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) -
Estrai i dati utilizzando SQL o una pipeline:
-
Editor dati BigQuery (
roles/bigquery.dataEditor) -
Utente job BigQuery (
roles/bigquery.jobUser)
-
Editor dati BigQuery (
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare scansioni di rilevamento, visualizzare approfondimenti ed estrarre dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per creare scansioni di rilevamento, visualizzare approfondimenti ed estrarre dati sono necessarie le seguenti autorizzazioni:
-
Scansioni di rilevamento:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.list
-
-
Estrazione dei dati:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.getData -
bigquery.jobs.create
-
L'amministratore potrebbe anche essere in grado di concedere al tuo account utente queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.
Ruoli e autorizzazioni dell'agente del servizio di rilevamento di Knowledge Catalog
L'agente di servizio di rilevamento di Knowledge Catalog è un agente di servizio che deve accedere per eseguire scansioni di rilevamento ed eseguire l'inferenza utilizzando Vertex AI.
Per assicurarti che l'agente di servizio di Knowledge Catalog Discovery (di solito service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) disponga delle autorizzazioni necessarie per eseguire scansioni di rilevamento ed eseguire l'inferenza utilizzando Vertex AI,
chiedi all'amministratore di concedere i seguenti ruoli IAM all'agente di servizio di Knowledge Catalog Discovery (di solito service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) sul progetto:
-
Utente Vertex AI (
roles/aiplatform.user) -
Agente del servizio di rilevamento (
roles/dataplex.discoveryServiceAgent)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire scansioni di rilevamento ed eseguire l'inferenza utilizzando Vertex AI. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per eseguire le analisi di rilevamento ed eseguire l'inferenza utilizzando Vertex AI sono necessarie le seguenti autorizzazioni:
-
aiplatform.endpoints.predict -
bigquery.datasets.create -
bigquery.datasets.get -
storage.buckets.get -
storage.objects.get -
storage.objects.list
L'amministratore potrebbe anche essere in grado di concedere all'agente di servizio di rilevamento di Knowledge Catalog (di solito service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)
queste autorizzazioni
tramite ruoli personalizzati o
altri ruoli predefiniti.
Ruoli e autorizzazioni del account di servizio di connessione BigQuery
Una connessione alle risorse Cloud BigQuery consente a Knowledge Catalog di accedere in modo sicuro e scoprire i dati non strutturati archiviati al di fuori di BigQuery, ad esempio in Cloud Storage. Quando crei una connessione, BigQuery crea automaticamente un service account dedicato per tuo conto. Questo account di servizio funge da identità utilizzata per connettersi all'origine dati esterna.
Per impostazione predefinita, questo account di servizio non dispone di alcuna autorizzazione. Devi concedere esplicitamente a questo account di servizio i ruoli IAM richiesti nei bucket Cloud Storage contenenti i tuoi dati. Puoi utilizzare una connessione BigQuery esistente o crearne una nuova nella stessa località del bucket Cloud Storage di origine.
Per assicurarti che il account di servizio di connessione BigQuery (di solito service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com) disponga delle autorizzazioni necessarie per creare tabelle di oggetti BigLake ed eseguire l'inferenza,
chiedi all'amministratore di concedere i seguenti ruoli IAM aaccount di serviziont di connessione BigQuery (di solito service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com):
-
Visualizzatore oggetti Storage (
roles/storage.objectViewer) sul bucket contenente dati non strutturati -
Vertex AI User (
roles/aiplatform.user) sul progetto
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare tabelle di oggetti BigLake ed eseguire l'inferenza. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per creare tabelle di oggetti BigLake ed eseguire l'inferenza sono necessarie le seguenti autorizzazioni:
-
storage.buckets.getnel bucket contenente i dati non strutturati -
storage.objects.getnel bucket contenente i dati non strutturati -
aiplatform.endpoints.predictsul progetto
L'amministratore potrebbe anche essere in grado di concedere al account di servizio di connessione BigQuery (di solito service-PROJECT_NUMBER@gcp-sa-bigqueryconnection.iam.gserviceaccount.com)
queste autorizzazioni
tramite ruoli personalizzati o
altri ruoli predefiniti.
Ruoli e autorizzazioni del account di servizio di esecuzione della pipeline (facoltativo)
Se scegli di estrarre i dati dedotti utilizzando una pipeline automatica, devi creare o fornire unaccount di serviziot dedicato per eseguire la pipeline. Questo account di servizio di esecuzione funge da identità che autentica e esegue in modo sicuro le attività di estrazione dati e analisi in background in BigQuery. Inoltre, devi concedere al account di servizio Dataform predefinito l'autorizzazione per rappresentare questo account di servizio di esecuzione.
Per assicurarti che il account di servizio di esecuzione della pipeline disponga delle autorizzazioni necessarie per estrarre le entità e le relazioni inferite utilizzando una pipeline, chiedi all'amministratore di concedere i seguenti ruoli IAMaccount di servizioount di esecuzione della pipeline sul progetto:
-
Editor dati BigQuery (
roles/bigquery.dataEditor) -
Utente job BigQuery (
roles/bigquery.jobUser) -
Utente BigQuery (
roles/bigquery.user) -
Utente Vertex AI (
roles/aiplatform.user)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per estrarre le entità e le relazioni dedotte utilizzando una pipeline. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per estrarre le entità e le relazioni dedotte utilizzando una pipeline sono necessarie le seguenti autorizzazioni:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.get -
bigquery.tables.getData -
bigquery.jobs.create -
aiplatform.endpoints.predict
L'amministratore potrebbe anche essere in grado di concedere al account di servizio di esecuzione della pipeline queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.
Per assicurarti che l'account di servizio Dataform predefinito (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) disponga dell'autorizzazione necessaria per rappresentare l'account di servizio di esecuzione della pipeline,
chiedi all'amministratore di concedere il ruolo IAM
Creatore token service account (roles/iam.serviceAccountTokenCreator)
all'account di servizio Dataform predefinito (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) nell'account di servizio di esecuzione della pipeline.
Questo ruolo predefinito contiene l'autorizzazione
iam.serviceAccounts.getAccessToken
necessaria per
assumere l'identità del account di servizio di esecuzione della pipeline.
L'amministratore potrebbe anche essere in grado di concedere all'account di servizio Dataform predefinito (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com)
questa autorizzazione
tramite ruoli personalizzati o
altri ruoli predefiniti.
Prepara i dati non strutturati
Prima di eseguire una scansione di rilevamento, devi caricare i dati non strutturati in un bucket Cloud Storage. Gli approfondimenti sui dati non strutturati sono ottimizzati per l'analisi dei documenti PDF.
Per saperne di più sull'archiviazione e la gestione dei file in Cloud Storage, consulta Caricare oggetti.
Crea una scansione di rilevamento per i dati non strutturati
Per estrarre informazioni semantiche dai dati non strutturati, devi prima creare una scansione di rilevamento. Questa scansione individua automaticamente i file non strutturati in Cloud Storage e li cataloga in una tabella degli oggetti BigLake. Se abiliti l'opzione di approfondimenti sui dati durante questo processo, Knowledge Catalog utilizza Vertex AI per analizzare i file e generare metadati, schemi e relazioni dedotti.
Nella console Google Cloud , vai alla pagina Cura dei metadati.
Nella scheda Rilevamento Cloud Storage, fai clic su Crea.
Inserisci un nome per la scansione.
Per selezionare il bucket Cloud Storage contenente i dati non strutturati, fai clic su Sfoglia.
Per Opzioni per i dati non strutturati, seleziona la casella di controllo Attiva inferenza semantica.
Nel campo ID connessione, specifica la connessione BigQuery utilizzata per accedere ai file.
La scansione di rilevamento cataloga automaticamente i dati non strutturati in BigQuery creando tabelle degli oggetti BigLake. Poiché le tabelle degli oggetti BigLake separano in modo sicuro le credenziali di accesso ai dati dall'utente che esegue le query, è necessaria una connessione per l'autenticazione con Cloud Storage e la lettura dei file.
Fai clic su Esegui ora (per una scansione on demand) o Crea (per una scansione pianificata).
Per tutti i dettagli sulle configurazioni disponibili, consulta Individuare e catalogare i dati di Cloud Storage.
Knowledge Catalog crea una tabella degli oggetti BigLake e arricchisce la voce del catalogo con metadati generati con l'AI. Di solito, questa procedura richiede alcuni minuti per i set di dati standard.
Individua la tabella di oggetti BigLake
Al termine della scansione di rilevamento, Knowledge Catalog crea una o più tabelle di oggetti BigLake e popola Knowledge Catalog con una voce corrispondente arricchita con metadati generati dall'AI. Quando vengono create più voci a causa di una scansione di rilevamento, ognuna ha la propria scheda Approfondimenti. Puoi visualizzare la descrizione automatica della tabella, gli schemi dedotti e i grafici delle relazioni.
Nella console Google Cloud , vai alla pagina BigQuery.
Nel menu di navigazione, fai clic su Governance > Selezione dei metadati.
Nel riquadro Rilevamento di Cloud Storage, fai clic sulla scansione di rilevamento che hai eseguito per i dati non strutturati.
- La sezione Dettagli scansione mostra i dettagli della scansione di rilevamento.
- La sezione Stato scansione mostra i risultati del rilevamento dell'ultimo job di scansione.
Fai clic sul link per Set di dati pubblicato.
Nell'elenco delle tabelle visualizzate per il set di dati BigQuery, seleziona la tabella degli oggetti BigLake generata per la scansione dei dati di rilevamento.
Copia l'ID tabella. Ti servirà nella sezione successiva.
Visualizzare i grafici delle entità dedotte
Puoi visualizzare la tabella degli oggetti BigLake per la scansione di rilevamento in Knowledge Catalog.
Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.
Incolla e cerca la tabella degli oggetti BigLake di cui hai selezionato l'ID nella sezione precedente.
Nei risultati di ricerca, fai clic sulla tabella per aprire la relativa pagina di inserimento.
Nella scheda Dettagli, in Aspetti, verifica la presenza dell'aspetto Profilo grafico. Questo aspetto contiene gli schemi dedotti per entità e relazioni.
Fai clic sulla scheda Approfondimenti. Nella scheda Approfondimenti puoi visualizzare le seguenti informazioni:
Estrazione semantica. Un banner indica che sono state rilevate entità e relazioni estraibili. Include un pulsante Estrai per materializzare i dati utilizzando SQL o il deployment della pipeline.
Descrizione. Un riepilogo leggibile creato con l'AI spiega i contenuti dei dati non strutturati. Descrive i nodi (entità) principali scoperti e il modo in cui sono mappati tra loro tramite archi (relazioni).
Pipeline. Un elenco di pipeline di estrazione dei dati precedentemente implementate associate a questa risorsa. Puoi visualizzare il nome visualizzato, la regione, l'ora di creazione e l'utente che ha creato la pipeline.
Entità e relazioni dedotte. Un grafico visivo e interattivo mostra la struttura semantica rilevata dei dati non strutturati. Il grafo contiene nodi che rappresentano entità distinte, ad esempio "Ricetta" e "Ingrediente", e archi che rappresentano le connessioni tra di loro, ad esempio "HasAllergenStatus". Puoi utilizzare la legenda per filtrare ed esplorare nodi e archi specifici.
Entità. Un elenco dettagliato delle entità principali rilevate. Puoi espandere ogni entità per visualizzare la descrizione generata dall'AI e lo schema dedotto, che include nomi dei campi, tipi di dati e descrizioni dei campi.
Relazioni. Un elenco dettagliato delle connessioni scoperte tra le entità. Puoi espandere ogni relazione per visualizzarne la descrizione e lo schema che definisce la mappatura delle entità tra loro.
Aggiornare gli insight dedotti
Gli insight dedotti vengono archiviati in Knowledge Catalog come aspetto collegato
alla tabella degli oggetti BigLake. Puoi aggiornare questi approfondimenti
manualmente utilizzando la console Google Cloud o l'API
entry.patch.
Console
Per aggiornare gli approfondimenti dedotti nella console Google Cloud :
Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.
Incolla e cerca l'ID della tabella di oggetti BigLake.
Nei risultati di ricerca, fai clic sulla tabella per aprire la relativa pagina di inserimento.
Fai clic sulla scheda Approfondimenti.
Accanto a Entità e relazioni dedotte, fai clic su Modifica.
Nell'editor JSON, modifica l'aspetto
graph-profile.Fai clic su Salva.
REST
Per aggiornare gli approfondimenti dedotti utilizzando l'API REST:
Crea un file denominato
payload.jsone aggiungi i contenuti JSON dell'aspetto che vuoi aggiornare. Ad esempio:{ "aspects": { "dataplex-types.global.graph-profile": { "data": { // Your updated inferred insights data } } } }Esegui questo comando nel terminale:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @payload.json \ "https://dataplex.googleapis.com/v1/projects/<var>PROJECT_ID</var>/locations/<var>LOCATION</var>/entryGroups/<var>ENTRY_GROUP_ID</var>/entries/<var>ENTRY_ID</var>?updateMask=aspects"Sostituisci quanto segue:
PROJECT_ID: l'ID del tuo progetto, ad esempioexample-projectLOCATION: la posizione della voce, ad esempious-central1ENTRY_GROUP_ID: l'ID del gruppo di voci, ad esempioexample-entry-groupENTRY_ID: l'ID della voce, ad esempioexample-entry
Per ulteriori informazioni ed esempi di codice in altre lingue, vedi Aggiornare un aspetto della voce.
Estrai dati in BigQuery
Puoi materializzare le entità e le relazioni inferite in tabelle o viste strutturate in BigQuery utilizzando SQL o una pipeline automatizzata.
Nella scheda Approfondimenti, fai clic su Estrazione.
Scegli uno dei seguenti metodi in base alle tue esigenze di analisi e alla scala dei tuoi dati non strutturati:
Estrai per SQL:scegli questa opzione per analisi rapide e ad hoc, set di dati di dimensioni piccole o medie o quando vuoi un approccio senza infrastruttura utilizzando i modelli remoti BigQuery.
Per estrarre utilizzando SQL:
- Seleziona Estrai per SQL.
- Nel riquadro Estrai con SQL, seleziona un set di dati di destinazione. Il set di dati deve trovarsi nella stessa località dell'origine.
- Fai clic su Estrai.
- Nell'editor BigQuery si apre una query precompilata. Esegui la query per creare tabelle e viste standard.
Per saperne di più sull'utilizzo di SQL per estrarre informazioni dai documenti, consulta Elabora documenti con la funzione
ML.PROCESS_DOCUMENT.Estrai per pipeline:scegli questa opzione per l'elaborazione dei dati su larga scala o quando hai bisogno di una logica di ripetizione, una gestione degli errori e un'orchestrazione automatizzata robuste per gestire grandi volumi di documenti.
Per eseguire l'estrazione utilizzando una pipeline:
- Seleziona Estrai per pipeline.
- Nel riquadro Estrai con pipeline, inserisci un nome visualizzato per la pipeline.
- Seleziona una regione.
- Seleziona un set di dati di destinazione. Il set di dati deve trovarsi nella stessa località dell'origine.
- Fai clic su Estrai. Viene creata una pipeline BigQuery che orchestra la materializzazione dei dati.
- Esegui tutte le attività nella pipeline per generare visualizzazioni strutturate di nodi e archi.
Per saperne di più sull'esecuzione dei flussi di lavoro dei dati, consulta Introduzione a Dataform.
Dopo aver estratto e materializzato gli approfondimenti semantici in BigQuery, puoi eseguire le seguenti attività:
Esegui query sui dati strutturati. Esegui query SQL standard sulle tabelle appena create per analizzare le entità e le relazioni estratte.
Unisci con i dati esistenti. Combina gli approfondimenti qualitativi estratti dai tuoi file non strutturati con i tuoi set di dati BigQuery strutturati esistenti (ad esempio unisci i dati delle fatture analizzati con le tue tabelle di contabilità).
Esplora gli approfondimenti sui dati. Utilizza la funzionalità Approfondimenti sui dati in BigQuery Studio per generare automaticamente domande in linguaggio naturale e query SQL per i tuoi nuovi asset strutturati.
Analizza con Gemini. Utilizza Gemini in BigQuery per eseguire analisi conversazionali, riepilogare le tendenze o creare dashboard in Looker Studio in base ai dati estratti.