Informazioni sugli approfondimenti sui dati non strutturati

Gli insight sui dati non strutturati in Knowledge Catalog trasformano i dati non strutturati o i file non strutturati, come i PDF, in asset strutturati su cui è possibile eseguire query. Mentre gli strumenti di rilevamento standard sono limitati ai metadati a livello di file, come dimensioni e tipo, gli insight sui dati non strutturati utilizzano Vertex AI per analizzare i contenuti dei file. Estrae automaticamente il contesto aziendale necessario per basare gli agenti AI e potenziare l'analisi avanzata.

Questa automazione elimina la necessità di analizzare manualmente i documenti e di scrivere codice ETL personalizzato, consentendoti di scoprire, classificare e utilizzare dati che in precedenza non erano accessibili.

Rilevamento automatico dei dati non strutturati

Una scansione di rilevamento è un processo che individua automaticamente i file non strutturati in Cloud Storage e li cataloga in una o più tabelle di oggetti BigLake in BigQuery per l'analisi. Funge da punto di ingresso per gli insight sui dati non strutturati. Il sistema registra automaticamente le tabelle di oggetti BigLake risultanti come voci in Knowledge Catalog. Quando vengono create più tabelle a causa di una scansione di rilevamento, ogni voce ha la propria scheda degli insight. Puoi quindi aprire questa voce per esplorare gli insight sui dati generati. Quando esegui una scansione di rilevamento con gli insight sui dati non strutturati attivati, il sistema esegue queste azioni:

  1. Identifica e raggruppa i file. Identifica e organizza automaticamente i file non strutturati in Cloud Storage in tabelle di oggetti BigLake. Queste tabelle di oggetti sono tabelle di sola lettura che forniscono un'interfaccia strutturata ai dati non strutturati.

  2. Esegue gli insight sui dati non strutturati. Utilizza Vertex AI per analizzare il contenuto effettivo dei file per comprenderne il significato e la struttura. Ciò include l'inferenza delle entità, che utilizza l'AI generativa per estrarre attributi specifici, ad esempio Company, Product, o Serial Number, dal contenuto del file. Include anche l'estrazione delle relazioni, che identifica il modo in cui queste entità si connettono, ad esempio Component is_part_of Product, per creare un grafico semantico.

  3. Genera schemi e profili di grafici. Fornisce uno schema relazionale suggerito dall'AI e un aspetto del profilo del grafico. Si tratta di un aspetto dei metadati di Knowledge Catalog che contiene gli schemi dedotti per le entità e le relazioni.

  4. Arricchisce i metadati. Compila automaticamente Knowledge Catalog con i metadati generati dall'AI. In questo modo, i dati sono ricercabili e pronti per l'estrazione.

Anziché progettare manualmente gli schemi di database, puoi eseguire l'estrazione dei dati utilizzando l'orchestrazione di pipeline o SQL con un clic. Questo processo materializza le entità e le relazioni dedotte in formati strutturati, come tabelle o viste.

Casi d'uso

Puoi utilizzare gli insight sui dati non strutturati per vari scopi, tra cui:

  • Generazione automatica di pipeline ETL. Automatizza l'estrazione dei dati da Cloud Storage a BigQuery sostituendo i parser personalizzati con suggerimenti di schemi automatici e deployment con un clic per materializzare i dati in tabelle, viste o grafici semantici di BigQuery.

    Ad esempio, una società di servizi finanziari può estrarre automaticamente i dettagli delle fatture, i nomi dei fornitori e i termini contrattuali da migliaia di fatture in formato PDF, materializzandoli direttamente in BigQuery per un'analisi immediata delle spese senza scrivere codice di analisi personalizzato.

  • Classificazione e convalida dei contenuti. Raggruppa automaticamente i dati non strutturati in asset ricercabili arricchiti con metadati generati dall'AI, consentendo ai responsabili dei dati di eseguire la convalida e il monitoraggio delle entità estratte su larga scala con human-in-the-loop.

    Ad esempio, un reparto legale o di conformità può classificare automaticamente grandi repository di contratti storici ed estrarre le entità chiave. In questo modo, i responsabili dei dati possono convalidare i metadati prima di utilizzarli per i rapporti per la conformità normativa critici.

  • Grounding degli agenti AI. Basare gli agenti di Retrieval-Augmented Generation (RAG) su grafici verificati. In questo modo, viene fornita una "catena di tracciabilità" chiara che collega i file non elaborati alla logica di business strutturata, riducendo le allucinazioni e consentendo agli agenti AI di navigare tra le join di più tabelle senza ambiguità.

    Ad esempio, un'azienda manifatturiera può estrarre le relazioni tra le attrezzature dai log di manutenzione. Quando un tecnico chiede a un agente AI conversazionale "Quali regioni sono interessate dal richiamo del silicone?", l'agente utilizza il grafico delle relazioni verificato per fornire una risposta accurata con una chiara catena di tracciabilità ai manuali originali.

Limitazioni

Prima di utilizzare gli insight sui dati non strutturati, esamina le seguenti limitazioni:

  • Formati supportati. Sebbene le scansioni di rilevamento identifichino e raggruppino automaticamente vari tipi di file non strutturati in tabelle di oggetti BigQuery, gli insight sui dati non strutturati sono ottimizzati solo per i file PDF.

  • Posizione. Gli insight sui dati non strutturati sono disponibili solo nelle località che supportano i modelli Vertex AI Gemini 2.5 Pro. Per un elenco delle regioni supportate, consulta la sezione Regioni supportate in Gemini 2.5 Pro.

Prezzi

Durante la fase di anteprima, gli insight sui dati non strutturati sono disponibili per la sperimentazione e il test senza costi aggiuntivi per le funzionalità di inferenza semantica. Tuttavia, rimani responsabile dei costi delle risorse e dei servizi sottostanti utilizzati durante il processo.

Periodo di anteprima

  • Inferenza semantica. Non sono previsti costi per l'utilizzo di Vertex AI per estrarre informazioni semantiche e dedurre i profili dei grafici durante le scansioni di rilevamento per tutto il periodo di anteprima.

  • Costi delle risorse sottostanti. Vengono applicati i costi standard per le risorse necessarie per archiviare ed elaborare i dati:

    • Knowledge Catalog.

      • Le scansioni di rilevamento vengono fatturate in base agli SKU di elaborazione Premium di Knowledge Catalog (ore DCU) per la scansione e il raggruppamento dei dati non strutturati. Per ulteriori informazioni, vedi Prezzi di Knowledge Catalog.

      • I metadati generati dall'AI, inclusi i profili dei grafici, comportano i costi di archiviazione standard di Knowledge Catalog.

    • BigQuery.

      • Se utilizzi il metodo di estrazione della pipeline, vengono applicati i costi standard per l'esecuzione di Dataform e i job di BigQuery.

      • Se utilizzi il metodo SQL, vengono applicati i costi standard di BigQuery ML e i costi dei job di BigQuery.

      • Tutti i dati materializzati in BigQuery, incluse le tabelle di oggetti, i metadati dedotti e le entità estratte, comportano i costi standard di archiviazione e query di BigQuery. Per ulteriori informazioni, vedi Prezzi di BigQuery.

Disponibilità generale (GA)

La fatturazione ufficiale degli insight sui dati non strutturati inizia con la disponibilità generale (GA).

Quote

Le quote standard delle risorse e delle API DataScan si applicano a ogni singolo job di rilevamento. Una quota specifica regola il volume di inferenza semantica: le esecuzioni totali di inferenza semantica giornaliere sulle tabelle di oggetti BigQuery sono limitate a una per progetto al giorno.

Poiché gli insight sui dati non strutturati si basano su una scansione di rilevamento, si applicano i limiti al numero di tabelle supportate da una scansione di rilevamento. Per ulteriori informazioni, vedi Quote e limiti di BigQuery.

Passaggi successivi