Utilizzare il profilo dei dati per i dati non strutturati

Una scansione del profilo dei dati per i dati non strutturati (UnstructuredDataProfileSpec) basata sui modelli Vertex AI Gemini 2.5 Pro analizza le tabelle di oggetti BigQuery esistenti per trasformare i file non strutturati non elaborati in Cloud Storage (come i PDF) in asset strutturati su cui è possibile eseguire query. Questo flusso di lavoro autonomo è progettato per gli utenti che hanno già tabelle di oggetti BigQuery e supporta l'estrazione guidata con un prompt personalizzato. Se inizi con file non elaborati in Cloud Storage e vuoi un flusso di lavoro di rilevamento automatizzato, consulta Utilizzare la scansione di rilevamento per i dati non strutturati.

Questo documento descrive come configurare le autorizzazioni necessarie, preparare la tabella degli oggetti, creare una scansione di profilazione dei dati per i dati non strutturati utilizzando l'API REST, visualizzare gli approfondimenti generati, curare i profili grafici ed estrarre i dati in BigQuery.

Prima di iniziare

Prima di creare una scansione di profilazione dei dati per i dati non strutturati, assicurati di disporre delle autorizzazioni e delle API necessarie abilitate.

Abilita API

Abilita le seguenti API nel tuo progetto:

  • dataplex.googleapis.com
  • bigquery.googleapis.com
  • aiplatform.googleapis.com (Vertex AI)

Ruoli richiesti per abilitare le API

Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

Abilita le API

Ruoli e autorizzazioni richiesti

L'inferenza semantica dei dati non strutturati è una funzionalità avanzata di scansione di profilazione dei dati che opera sulle tabelle degli oggetti BigQuery. Per configurare ed eseguire la profilazione dei dati non strutturati, devi soddisfare le autorizzazioni di base per accedere alla tabella degli oggetti e concedere ruoli aggiuntivi per l'inferenza semantica in più service agent.

Ruoli della tabella degli oggetti di base

Per accedere a una tabella di oggetti BigQuery ed eseguirvi query, assicurati che tu e i service account utilizzati da Knowledge Catalog dispongano dei seguenti ruoli Identity and Access Management (IAM) di base sul progetto:

  • Visualizzatore dati BigQuery (roles/bigquery.dataViewer)
  • BigQuery Connection User (roles/bigquery.connectionUser)

Per un elenco completo dei prerequisiti della tabella degli oggetti, consulta Creare tabelle degli oggetti.

Ruoli aggiuntivi per l'inferenza semantica

Oltre all'accesso di base alle tabelle, assicurati che tu e i service account dispongano dei seguenti ruoli IAM aggiuntivi.

Riepilogo di identità e ruoli aggiuntivi

Tipo di identità Formato tipico del principal Ruoli IAM richiesti Scopo principale
Utente finale Il tuo account utente Google Cloud
  • Dataplex DataScan Editor
  • Dataplex Catalog Editor
  • BigQuery Data Editor
  • BigQuery Job User
Utilizzi questi ruoli aggiuntivi per configurare le scansioni, visualizzare i risultati generati dall'AI, curare i profili grafici e attivare l'estrazione dati finale.
Agente di rilevamento di Dataplex Universal Catalog service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com
  • Vertex AI User
  • BigQuery Job User
  • BigQuery Data Viewer
Questo service agent gestito da Google utilizza questi ruoli aggiuntivi per chiamare Vertex AI per generare schemi e metadati dedotti.
Account di servizio connessione BigQuery Un'identità univoca associata alla tua connessione (ad esempio, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com)
  • Storage Object Viewer (sul bucket di origine)
  • Utente Vertex AI (nel progetto)
Collega BigQuery allo spazio di archiviazione esterno, consentendo a BigQuery di leggere i file non elaborati, creare tabelle di oggetti ed eseguire l'inferenza dell'AI senza esporre le credenziali utente personali.
Account di servizio di esecuzione della pipeline (facoltativo) Un account di servizio gestito dall'utente
  • BigQuery Data Editor
  • BigQuery Job User
  • Utente BigQuery
  • Vertex AI User
Se scegli di estrarre i dati utilizzando una pipeline automatizzata, questa identità esegue i job in background per materializzare le entità generate dall'AI nelle tabelle BigQuery.
Account di servizio Dataform predefinito (facoltativo) service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com
  • Creatore token service account (concesso al account di servizio di esecuzione della pipeline)
Quando utilizzi il metodo di estrazione della pipeline, Dataform richiede l'autorizzazione a utilizzare l'identità del account di servizio di esecuzione della pipeline per orchestrare il flusso di lavoro.

Ruoli e autorizzazioni utente finale

Per assicurarti che il tuo account utente disponga delle autorizzazioni necessarie per creare scansioni, visualizzare approfondimenti, curare profili grafici ed estrarre dati, chiedi all'amministratore di concedere al tuo account utente i seguenti ruoli IAM sul progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare scansioni, visualizzare approfondimenti, curare i profili del grafico ed estrarre dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per creare scansioni, visualizzare approfondimenti, curare profili grafici ed estrarre dati sono necessarie le seguenti autorizzazioni:

  • DataScans:
    • dataplex.datascans.create
    • dataplex.datascans.get
    • dataplex.datascans.getData
    • dataplex.datascans.list
    • dataplex.datascans.update
  • Estrazione dei dati:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.getData
    • bigquery.jobs.create

L'amministratore potrebbe anche essere in grado di concedere al tuo account utente queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.

Ruoli e autorizzazioni del service agent Dataplex Discovery

Il service agent Dataplex Discovery è un service agent che deve accedere per eseguire scansioni ed eseguire inferenze semantiche utilizzando Vertex AI.

Per assicurarti che l'agente del servizio di rilevamento Dataplex (di solito service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) disponga delle autorizzazioni necessarie per eseguire scansioni ed eseguire l'inferenza semantica utilizzando Vertex AI, chiedi all'amministratore di concedere i seguenti ruoli IAM all'agente del servizio di rilevamento Dataplex (di solito service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) sul progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per eseguire scansioni ed eseguire l'inferenza semantica utilizzando Vertex AI. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per eseguire scansioni ed eseguire l'inferenza semantica utilizzando Vertex AI sono necessarie le seguenti autorizzazioni:

  • Tutte:
    • aiplatform.endpoints.predict
    • bigquery.datasets.create
    • bigquery.datasets.get
    • bigquery.tables.get
    • bigquery.tables.getData
    • storage.buckets.get
    • storage.objects.get
    • storage.objects.list

L'amministratore potrebbe anche essere in grado di concedere all'agente di servizio di rilevamento Dataplex (di solito service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.

Ruoli e autorizzazioni del account di servizio di connessione BigQuery

Una connessione alle risorse Cloud BigQuery consente a Knowledge Catalog di accedere ai dati non strutturati archiviati in Cloud Storage. Quando crei una connessione, BigQuery crea automaticamente un service account dedicato per tuo conto. Questo account di servizio funge da identità utilizzata per connettersi all'origine dati esterna.

Per impostazione predefinita, questo account di servizio non dispone di alcuna autorizzazione. Devi concedere esplicitamente a questo account di servizio i ruoli IAM richiesti nei bucket Cloud Storage contenenti i tuoi dati. Puoi utilizzare una connessione BigQuery esistente o crearne una nuova nella stessa località del bucket Cloud Storage di origine. Per saperne di più sulla condivisione delle connessioni, consulta Condividere una connessione con gli utenti.

Per assicurarti che il account di servizio di connessione BigQuery (recupera l'ID dalla sezione Informazioni sulla connessione dei dettagli della connessione) disponga delle autorizzazioni necessarie per leggere le tabelle degli oggetti ed eseguire l'inferenza, chiedi all'amministratore di concedere i seguenti ruoli IAM aaccount di serviziont di connessione BigQuery (recupera l'ID dalla sezione Informazioni sulla connessione dei dettagli della connessione):

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per leggere le tabelle degli oggetti ed eseguire l'inferenza. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per leggere le tabelle degli oggetti ed eseguire l'inferenza sono necessarie le seguenti autorizzazioni:

  • Tutte:
    • storage.buckets.get nel bucket contenente i dati non strutturati
    • storage.objects.get nel bucket contenente i dati non strutturati
    • aiplatform.endpoints.predict sul progetto

L'amministratore potrebbe anche essere in grado di concedere al account di servizio di connessione BigQuery (recupera l'ID dalla sezione Informazioni sulla connessione dei dettagli della connessione) queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.

(Facoltativo) Ruoli e autorizzazioni del account di servizio di esecuzione della pipeline

Se scegli di estrarre i dati dedotti utilizzando una pipeline automatizzata, devi creare o fornire un account di servizio dedicato per eseguire la pipeline. Questo account di servizio di esecuzione funge da identità che autentica ed esegue le attività di estrazione dati e analisi in background in BigQuery. Inoltre, devi concedere al account di servizio Dataform predefinito l'autorizzazione ad assumere l'identità di questo account di servizio di esecuzione.

Per assicurarti che il account di servizio di esecuzione della pipeline disponga delle autorizzazioni necessarie per estrarre le entità e le relazioni inferite utilizzando una pipeline, chiedi all'amministratore di concedere i seguenti ruoli IAMaccount di servizioount di esecuzione della pipeline sul progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per estrarre le entità e le relazioni dedotte utilizzando una pipeline. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per estrarre le entità e le relazioni dedotte utilizzando una pipeline sono necessarie le seguenti autorizzazioni:

  • Tutte:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.jobs.create
    • aiplatform.endpoints.predict

L'amministratore potrebbe anche essere in grado di concedere al account di servizio di esecuzione della pipeline queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.

Per assicurarti che il account di servizio Dataform predefinito (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) disponga delle autorizzazioni necessarie per rappresentare il account di servizio di esecuzione della pipeline, chiedi all'amministratore di concedere i seguenti ruoli IAM al account di servizio Dataform predefinito (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) sul account di servizio di esecuzione della pipeline:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per rappresentare il account di servizio di esecuzione della pipeline. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per rappresentare il account di servizio di esecuzione della pipeline sono necessarie le seguenti autorizzazioni:

  • Tutte: iam.serviceAccounts.getAccessToken

L'amministratore potrebbe anche essere in grado di concedere all'account di servizio Dataform predefinito (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) queste autorizzazioni tramite ruoli personalizzati o altri ruoli predefiniti.


Preparare la tabella degli oggetti

Una scansione di profilazione dei dati per i dati non strutturati opera direttamente su una tabella degli oggetti BigQuery esistente. Prima di creare la scansione, assicurati che i dati non strutturati (ad esempio i PDF) siano archiviati in un bucket Cloud Storage e di aver creato una tabella di oggetti BigQuery corrispondente su questo bucket utilizzando una connessione alle risorse Cloud.

Assicurati che tu e il account di servizio Knowledge Catalog disponiate del ruolo Utente connessione BigQuery (roles/bigquery.connectionUser) per la connessione utilizzata dalla tabella degli oggetti.

Per saperne di più sulla creazione di tabelle degli oggetti e sulla configurazione della connessione richiesta, vedi Creare tabelle degli oggetti.

Crea una scansione del profilo di dati per i dati non strutturati

Per estrarre insight semantici dalla tabella degli oggetti, devi creare una scansione del profilo dei dati per i dati non strutturati (UnstructuredDataProfileSpec). Questa scansione utilizza i modelli Vertex AI Gemini 2.5 Pro per analizzare i file non strutturati a cui fa riferimento la tabella degli oggetti e generare metadati, schemi e relazioni dedotti.

Per questa release iniziale, la creazione di scansioni è supportata esclusivamente tramite l'API REST.

Per creare un'analisi del profilo dati per i dati non strutturati utilizzando l'API REST, utilizza il metodo dataScans.create con un unstructuredDataProfileSpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo Google Cloud progetto.
  • LOCATION: la Google Cloud regione (deve supportare Gemini 2.5 Pro).
  • DATASCAN: il nome della scansione del profilo dei dati.
  • DATASET_ID e TABLE_ID: il nome del set di dati BigQuery e della tabella degli oggetti.

Parametri di specifica della scansione del profilo di dati

  • customizedPrompt: (Facoltativo) Un prompt in linguaggio naturale che indica a Gemini entità specifiche o contesto di dominio da estrarre (ad esempio, Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). Per impostazione predefinita, questo è una stringa vuota (""). Esiste un limite alla lunghezza massima dei caratteri per i prompt personalizzati.

  • graphProfilePublishingEnabled: (Facoltativo) Se pubblicare automaticamente il profilo del grafico dedotto nel catalogo al termine della scansione. Per impostazione predefinita, questo valore è false.

Knowledge Catalog esegue la scansione di profilazione dei dati e arricchisce la voce del catalogo con metadati generati dall'AI. Questa procedura richiede in genere alcuni minuti per i set di dati standard.

Esempio: estrai i termini contrattuali dai PDF del venditore

L'esempio seguente mostra una richiesta API REST per un'azienda di vendita al dettaglio di esempio che crea una scansione del profilo dei dati (seller-contracts-scan) per analizzare i PDF del contratto del venditore archiviati in una tabella degli oggetti (seller_agreements_obj_table). Utilizza un prompt personalizzato per chiedere a Gemini di estrarre termini commerciali specifici, come tassi di commissione e termini di pagamento:

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

Esegui la scansione del profilo di dati

Se hai configurato la scansione del profilo di dati in modo che venga eseguita on demand, devi attivarla manualmente per analizzare i dati non strutturati.

Per eseguire una scansione del profilo dei dati on demand utilizzando l'API REST, utilizza il metodo dataScans.run:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo Google Cloud progetto.
  • LOCATION: la regione Google Cloud in cui si trova la scansione del profilo dei dati.
  • DATASCAN: il nome della scansione del profilo dei dati.

Esplora i risultati della scansione del profilo di dati

Una volta completata la scansione di profilazione dei dati, Knowledge Catalog genera un profilo del grafico contenente gli schemi dedotti per entità e relazioni. Puoi esplorare questi risultati utilizzando la console Google Cloud o l'API REST.

Console

Se hai attivato la pubblicazione dei profili grafici nel catalogo (graphProfilePublishingEnabled: true), puoi visualizzare la tabella degli oggetti e i relativi grafici semantici dedotti in Knowledge Catalog:

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. Incolla e cerca la tabella degli oggetti di cui hai configurato l'ID nella scansione.

  3. Nei risultati di ricerca, fai clic sulla tabella per aprire la relativa pagina di inserimento.

  4. Nella scheda Dettagli, in Aspetti, verifica la presenza dell'aspetto Profilo grafico (dataplex-types.global.graph-profile). Questo aspetto contiene gli schemi dedotti per entità e relazioni.

  5. Fai clic sulla scheda Approfondimenti. In questa scheda puoi visualizzare le seguenti informazioni:

    • Estrazione semantica.Un banner indica che sono state rilevate entità e relazioni estraibili. Include un pulsante Estrai per materializzare i dati utilizzando SQL o il deployment della pipeline.

    • Descrizione. Un riepilogo leggibile generato dall'AI spiega i contenuti dei dati non strutturati. Descrive i nodi principali (entità) rilevati e il modo in cui vengono mappati tra loro tramite i bordi (relazioni).

    • Pipeline.Un elenco di pipeline di estrazione dei dati precedentemente implementate associate a questa risorsa. Puoi visualizzare il nome visualizzato, la regione, l'ora di creazione e l'utente che ha creato la pipeline.

    • Entità e relazioni dedotte.Un grafico visivo e interattivo mostra la struttura semantica scoperta dei tuoi dati non strutturati. Il grafico contiene nodi che rappresentano entità distinte, ad esempio Recipe e Ingredient, e archi che rappresentano i collegamenti tra loro, ad esempio HasAllergenStatus. Puoi utilizzare la legenda per filtrare ed esplorare nodi e archi specifici.

    • Entità.Un elenco dettagliato delle entità principali rilevate. Puoi espandere ogni entità per visualizzare la descrizione generata dall'AI e il relativo schema dedotto, che include nomi dei campi, tipi di dati e descrizioni dei campi.

    • Relazioni.Un elenco dettagliato delle connessioni scoperte tra le entità. Puoi espandere ogni relazione per visualizzarne la descrizione e lo schema che definisce la mappatura delle entità tra loro.

REST

Per recuperare i risultati del profilo del grafico direttamente dall'esecuzione del job di scansione utilizzando l'API REST, utilizza il metodo dataScans.jobs.get con view=full:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del tuo Google Cloud progetto.
  • LOCATION: la regione Google Cloud in cui si trova la scansione del profilo dei dati.
  • DATASCAN: il nome della scansione del profilo dei dati.
  • JOB_ID: l'ID univoco dell'esecuzione del job di analisi del profilo dei dati.

L'esempio seguente mostra la risposta per il job seller-contracts-scan, inclusi unstructuredDataProfileResult e graphProfile:

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

Aggiornare gli insight dedotti

Gli insight dedotti vengono archiviati in Knowledge Catalog come aspetto collegato alla tabella degli oggetti. Puoi aggiornare questi approfondimenti manualmente utilizzando l'API REST.

REST

Per aggiornare gli approfondimenti dedotti utilizzando l'API REST:

  1. Crea un file denominato payload.json e aggiungi i contenuti JSON dell'aspetto che vuoi aggiornare. Ad esempio:

    {
      "aspects": {
        "dataplex-types.global.graph-profile": {
          "data": {
            "nodeTypes": [],
            "edgeTypes": []
          }
        }
      }
    }
    
  2. Esegui questo comando nel terminale:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -d @payload.json \
    "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto, ad esempio example-project
    • LOCATION: la posizione della voce, ad esempio us-central1
    • ENTRY_GROUP_ID: l'ID del gruppo di voci, ad esempio example-entry-group (per le tabelle degli oggetti BigQuery, utilizza @bigquery)
    • ENTRY_ID: l'ID della voce, ad esempio example-entry (recuperalo dalla scheda Panoramica della pagina dei dettagli della voce nella console Google Cloud )

Per ulteriori informazioni ed esempi di codice in altre lingue, consulta Aggiornare un aspetto della voce.

Estrai dati in BigQuery

Puoi materializzare le entità e le relazioni inferite in tabelle o viste strutturate in BigQuery utilizzando SQL o una pipeline automatizzata.

  1. Nella console Google Cloud , vai alla pagina Ricerca di Knowledge Catalog.

    Vai a Cerca

  2. Cerca la tabella degli oggetti generata dalla scansione.

  3. Nei risultati di ricerca, fai clic sulla tabella per aprire la relativa pagina di inserimento.

  4. Fai clic sulla scheda Approfondimenti.

  5. Nella scheda Approfondimenti, fai clic su Estrazione.

  6. Scegli uno dei seguenti metodi in base alle tue esigenze di analisi e alla scala dei tuoi dati non strutturati:

    • Estrai tramite SQL:scegli questa opzione per analisi rapide e ad hoc, set di dati di dimensioni piccole o medie o quando vuoi un approccio senza infrastruttura utilizzando i modelli remoti BigQuery.

      Per estrarre utilizzando SQL:

      1. Seleziona Estrai per SQL.
      2. Nel riquadro Estrai con SQL, seleziona un set di dati di destinazione. Il set di dati deve trovarsi nella stessa località dell'origine.
      3. Fai clic su Estrai.
      4. Nell'editor BigQuery si apre una query precompilata che utilizza la funzione ML.PROCESS_DOCUMENT. Esegui la query per creare tabelle e viste standard.

      Per saperne di più sull'utilizzo di SQL per estrarre informazioni dai documenti, consulta Elabora documenti con la funzione ML.PROCESS_DOCUMENT.

    • Estrai per pipeline:scegli questa opzione per l'elaborazione dei dati su larga scala o quando hai bisogno di una logica di ripetizione, una gestione degli errori e un'orchestrazione automatizzata affidabili per gestire grandi volumi di documenti.

      Per eseguire l'estrazione utilizzando una pipeline:

      1. Seleziona Estrai per pipeline.
      2. Nel riquadro Estrai con pipeline, inserisci un nome visualizzato per la pipeline.
      3. Seleziona una regione.
      4. Seleziona un set di dati di destinazione. Il set di dati deve trovarsi nella stessa località dell'origine.
      5. Fai clic su Estrai. Viene creata una pipeline BigQuery che orchestra la materializzazione dei dati utilizzando Dataform.
      6. Esegui tutte le attività nella pipeline per generare visualizzazioni strutturate di nodi e archi.

      Per saperne di più sull'esecuzione dei flussi di lavoro dei dati, consulta Introduzione a Dataform.

Dopo aver estratto e materializzato gli approfondimenti semantici in BigQuery, puoi eseguire le seguenti attività:

  • Esegui query sui dati strutturati.Esegui query SQL standard sulle tabelle appena create per analizzare le entità e le relazioni estratte.

  • Uniscili ai dati esistenti.Combina gli approfondimenti qualitativi estratti dai tuoi file non strutturati con i set di dati BigQuery strutturati esistenti (ad esempio unisci i dati delle fatture analizzate alle tabelle di contabilità).

  • Esplora gli approfondimenti sui dati.Utilizza la funzionalità Approfondimenti sui dati in BigQuery Studio per generare automaticamente domande in linguaggio naturale e query SQL per i nuovi asset strutturati.

  • Analizza con Gemini.Utilizza Gemini in BigQuery per eseguire analisi conversazionali, riepilogare le tendenze o creare dashboard in Data Studio in base ai dati estratti.

Passaggi successivi