Gli approfondimenti sui dati per i dati non strutturati in Knowledge Catalog trasformano i dati oscuri o i file non strutturati come i PDF in asset strutturati su cui è possibile eseguire query. Mentre gli strumenti di rilevamento standard sono limitati ai metadati a livello di file, come dimensioni e tipo, gli approfondimenti sui dati per i dati non strutturati utilizzano Vertex AI per analizzare i contenuti dei file. Estrae automaticamente il contesto aziendale necessario per basare gli agenti AI e potenziare l'analisi avanzata.
Questa automazione elimina la necessità di analizzare manualmente i documenti e il codice ETL personalizzato, consentendoti di scoprire, classificare e utilizzare dati precedentemente inaccessibili.
Rilevamento automatico di dati non strutturati
Una scansione di rilevamento è un processo che individua automaticamente i file non strutturati in Cloud Storage e li cataloga in una o più tabelle di oggetti in BigQuery per l'analisi. Funge da punto di accesso agli approfondimenti sui dati non strutturati. Il sistema registra automaticamente le tabelle degli oggetti risultanti come voci in Knowledge Catalog. Quando vengono create più tabelle a causa di una scansione del rilevamento, ogni voce ha la propria scheda Approfondimenti. Puoi quindi aprire questa voce per esplorare gli approfondimenti generati sui dati. Quando esegui una scansione di rilevamento con gli approfondimenti sui dati per i dati non strutturati attivi, il sistema esegue queste azioni:
Identifica e raggruppa i file. Identifica e organizza automaticamente i file non strutturati in Cloud Storage in tabelle di oggetti. Queste tabelle di oggetti sono tabelle di sola lettura che forniscono un'interfaccia strutturata ai dati non strutturati.
Esegue approfondimenti sui dati non strutturati. Utilizza Vertex AI per analizzare i contenuti effettivi all'interno dei file per comprenderne il significato e la struttura. Ciò include l'inferenza delle entità, che utilizza l'AI generativa per estrarre attributi specifici, ad esempio
Company,ProductoSerial Number, dai contenuti del file. Include anche l'estrazione delle relazioni, che identifica il modo in cui queste entità si connettono, ad esempioComponent is_part_of Product, per creare un grafico semantico.Genera schemi e profili grafici. Fornisce uno schema relazionale suggerito dall'AI e un aspetto del profilo del grafico. Si tratta di un aspetto dei metadati di Knowledge Catalog contenente gli schemi dedotti per le entità e le relazioni.
Arricchisce i metadati. Compila automaticamente Knowledge Catalog con metadati generati dall'AI. In questo modo i dati sono ricercabili e pronti per l'estrazione.
Anziché progettare manualmente gli schemi di database, puoi eseguire l'estrazione dei dati utilizzando SQL con un clic o l'orchestrazione delle pipeline. Questo processo materializza entità e relazioni inferite in formati strutturati, ad esempio tabelle o viste.
Casi d'uso
Puoi utilizzare gli approfondimenti sui dati non strutturati per vari scopi, tra cui:
Generazione automatica di pipeline ETL. Automatizza l'estrazione dei dati da Cloud Storage a BigQuery sostituendo i parser personalizzati con suggerimenti automatici per lo schema e deployment con un clic per materializzare i dati in tabelle, viste o grafici semantici BigQuery.
Ad esempio, una società di servizi finanziari può estrarre automaticamente i dettagli delle fatture, i nomi dei fornitori e i termini contrattuali da migliaia di fatture PDF, materializzandoli direttamente in BigQuery per l'analisi immediata delle spese senza scrivere codice di analisi personalizzato.
Classificazione e convalida dei contenuti. Raggruppa automaticamente i dark data in asset ricercabili arricchiti con metadati generati dall'AI, che consentono ai responsabili dei dati di eseguire la convalida e il monitoraggio human-in-the-loop delle entità estratte su larga scala.
Ad esempio, un ufficio legale o di conformità può classificare automaticamente grandi repository di contratti storici ed estrarre le entità chiave. In questo modo, i responsabili della gestione dei dati possono convalidare i metadati prima di utilizzarli per rapporti per la conformità normativa critici.
Fondatezza dell'agente AI. Basare gli agenti Retrieval-Augmented Generation (RAG) su grafi verificati. In questo modo si ottiene una chiara "catena di tracciabilità" che collega i file non elaborati alla logica di business strutturata, riducendo le allucinazioni, il che consente agli agenti AI di navigare tra le unioni di più tabelle senza alcuna ambiguità.
Ad esempio, un'azienda manifatturiera può estrarre le relazioni tra le attrezzature dai log di manutenzione. Quando un tecnico chiede a un agente AI conversazionale "Quali regioni sono interessate dal richiamo del silicone?", l'agente utilizza il grafo delle relazioni verificato per fornire una risposta accurata con una catena di tracciabilità chiara che rimanda ai manuali originali.
Limitazioni
Prima di utilizzare gli approfondimenti sui dati per i dati non strutturati, esamina le seguenti limitazioni:
Formati supportati. Sebbene le scansioni di rilevamento identifichino e raggruppino automaticamente vari tipi di file non strutturati in tabelle di oggetti BigQuery, gli approfondimenti sui dati non strutturati sono ottimizzati solo per i file PDF.
Località. Gli approfondimenti sui dati per i dati non strutturati sono disponibili solo nelle località che supportano i modelli Vertex AI Gemini 2.5 Pro. Per un elenco delle regioni supportate, consulta la sezione Regioni supportate in Gemini 2.5 Pro.
Prezzi
Durante la fase di anteprima, gli approfondimenti sui dati non strutturati sono disponibili per la sperimentazione e il test senza costi aggiuntivi per le funzionalità di inferenza semantica. Tuttavia, rimani responsabile dei costi delle risorse e dei servizi sottostanti utilizzati durante la procedura.
Periodo di anteprima
Inferenza semantica. Non è previsto alcun addebito per l'utilizzo di Vertex AI per estrarre informazioni semantiche e dedurre profili grafici durante le scansioni di rilevamento per tutto il periodo di anteprima.
Costi delle risorse sottostanti. Vengono applicati i costi standard per le risorse necessarie per archiviare ed elaborare i dati:
Knowledge Catalog.
Le scansioni di rilevamento vengono fatturate in base agli SKU di elaborazione Knowledge Catalog Premium (ore DCU) per la scansione e il raggruppamento dei dati non strutturati. Per saperne di più, consulta i prezzi di Knowledge Catalog.
I metadati generati con l'AI, inclusi i profili del grafico, comportano costi di archiviazione standard di Knowledge Catalog.
BigQuery.
Se utilizzi il metodo di estrazione della pipeline, vengono applicati gli addebiti standard per l'esecuzione di Dataform e i job BigQuery.
Se utilizzi il metodo SQL, si applicano gli addebiti standard di BigQuery ML e i job BigQuery.
Tutti i dati materializzati in BigQuery, incluse le tabelle degli oggetti, i metadati dedotti e le entità estratte, comportano addebiti standard per l'archiviazione e le query di BigQuery. Per saperne di più, consulta la pagina Prezzi di BigQuery.
Disponibilità generale (GA)
La fatturazione ufficiale per gli approfondimenti sui dati per i dati non strutturati inizia al momento della disponibilità generale (GA).
Quote
Le quote API e risorse DataScan standard si applicano a ogni singolo job di rilevamento. Un'apposita quota regola il volume dell'inferenza semantica: le esecuzioni totali giornaliere dell'inferenza semantica sulle tabelle degli oggetti BigQuery sono limitate a una per progetto al giorno.
Poiché gli approfondimenti sui dati non strutturati si basano su una scansione di rilevamento, si applicano i limiti al numero di tabelle supportate da una scansione di rilevamento. Per ulteriori informazioni, consulta Quote e limiti di BigQuery.
Passaggi successivi
- Scopri come utilizzare gli approfondimenti sui dati per i dati non strutturati.
- Scopri di più su come scoprire i dati.