Panoramica concettuale
Document AI Warehouse è una piattaforma integrata basata su cloud per archiviare, cercare, organizzare, gestire e analizzare documenti e relativi metadati strutturati (chiamati proprietà). I documenti includono dati strutturati (ad es. moduli, fatture) e non strutturati (ad es. contratti, documenti di ricerca) e le relative proprietà (metadati) includono dati estratti dai documenti tramite l'AI e tag assegnati manualmente o tramite l'AI (ad es. numero di conto, ID prestito, tipo di documento).
Funzionalità e vantaggi principali
Document AI Warehouse offre diversi vantaggi rispetto ai repository legacy. Di seguito sono riportate alcune funzionalità e vantaggi:
- API-first: un'unica API integrata per gestire i documenti e le relative proprietà (metadati estratti o taggati), che si integra nei tuoi flussi di lavoro e nelle tue applicazioni.
- Gestione dei metadati: per gestire i metadati estratti e con tag.
- Governance: integrata con IAM e directory aziendali
- Il controllo dell'accesso (autorizzazioni) granulare a livello di documento e cartella può essere assegnato a utenti e gruppi per visualizzare, modificare, gestire (condividere, eliminare) i documenti.
- Document AI Warehouse è integrato con IAM (Cloud Identity), in modo che gli utenti e i gruppi possano essere sottoposti a provisioning in Cloud Identity
- Gli utenti/gruppi possono anche essere federati/sincronizzati in Cloud Identity da un provider di identità / LDAP aziendale, ad esempio Azure AD, Active Directory e Keycloak.
- Ricerca: il prodotto supporta la ricerca semantica avanzata, incluse le seguenti funzionalità:
- Ricerca a testo intero
- Filtrare i risultati di ricerca per proprietà (data, numerico, enumerazione, testo).
I filtri possono essere combinati con gli operatori
ANDeOR - Ricerca semantica: supporta sinonimi ed errori ortografici comuni, derivazioni. Le virgolette (" ") possono essere utilizzate nella query per specificare le parole chiave a corrispondenza esatta.
- Sinonimi personalizzati: termini specifici di settore o specifici dell'azienda, ad esempio.
- Eseguire ricerche all'interno di una gerarchia di cartelle di primo livello
- Operatori per le parole chiave di ricerca:
""corrispondenza esatta,|or,+and,-exclude
- Organizzazione: gestione flessibile delle cartelle
- I documenti possono essere catalogati in una o più cartelle, in base all'applicazione (ad esempio, una carta d'identità viene inserita in una cartella KYC, una cartella di prestito o una cartella di conto bancario), senza replica del documento.
- Queste cartelle hanno proprietà e controllo dell'accesso propri, indipendenti da quelli del documento.
- Le cartelle possono essere nidificate in una o più gerarchie [ad esempio, AllLoans->State->Branch->Loans o LoanTypes->Loans].
- Gli utenti possono cercare documenti all'interno di una gerarchia di cartelle, ad esempio cercare all'interno di AllLoans->State
- UI*: il prodotto include un'interfaccia utente accessibile dal web con le seguenti funzionalità:
- Esplora documenti: cerca documenti, filtra i risultati di ricerca, seleziona i documenti per aggiornare o eliminare le proprietà in blocco
- Visualizzatore documenti: visualizza i documenti, visualizza/aggiorna le relative proprietà,assegna ACL, aggiungi alle cartelle
- Carica: carica i documenti ed esegui l'estrazione tramite un estrattore DocAI** (OCR o un analizzatore sintattico specializzato supportato come Invoice DocAI).
- Esplora cartelle: aggiungi documenti a una o più cartelle, esplora la gerarchia delle cartelle.
- UI incorporabile: i componenti Esplora documenti e Visualizzatore documenti (per i PDF) possono essere integrati nelle applicazioni del cliente
- Connettori*** a repository on-premise e cloud comuni: forniamo un connettore da Cloud Storage a Document AI Warehouse (come modello separato basato su Google Workflows) che può essere personalizzato/esteso ad altri repository. Collaboriamo inoltre con partner per fornire connettori preconfigurati a repository come SharePoint, Amazon S3, IBM FileNet e altri, per importare e indicizzare i documenti.
- Flessibilità di migrazione e federazione: il prodotto supporta un'architettura flessibile che consente la migrazione dei contenuti dei documenti in Document AI Warehouse o l'utilizzo in loco se sono presenti vincoli nella migrazione dei contenuti (indichiamo semplicemente contenuti e metadati)
- Integrato con i flussi di lavoro dei documenti: si integra con Google
Workflows e altri flussi di lavoro di elaborazione dei documenti supportando:
- Proprietà: rappresentano lo stato di un documento in un flusso di lavoro e le API che i flussi di lavoro possono utilizzare per aggiornare lo stato dei documenti
- Interfaccia di Document Explorer: per monitorare l'avanzamento dei documenti attraverso una pipeline del flusso di lavoro, consentendo a un essere umano di ispezionare, gestire gli errori e i documenti bloccati nella pipeline del flusso di lavoro.
- Notifiche condizionali: i documenti che soddisfano determinate condizioni possono attivare/notificare un workflow tramite un argomento Pub/Sub o una chiamata API web. Ad esempio, Trigger: OnUpdate; Condition: (DocType=Invoice and TotalAmount>$1000) -> send Pub/Sub Notification
- Gestione dei criteri e applicazione della conformità: le notifiche condizionali e quelle programmate possono essere utilizzate per attivare flussi di lavoro che applicano criteri (ad esempio, gestione dei record, conservazione ed eliminazione, sospensioni legali) a documenti specifici in Document AI Warehouse.
- File supportati: PDF di testo, immagini (PDF scansionati, file TIFF, file JPEG), file Office (DOCX, PPTX, XLSX) - vengono eseguiti tramite OCR e indicizzati.
- Nota: anche se il prodotto è incentrato sui documenti, viene utilizzato anche per gestire le immagini associate (ad es. in verticali come assicurazioni, ingegneria, edilizia, ricerca e così via).
Integrato con DocAI: Document AI Warehouse è integrato con i processori Document AI a diversi livelli:
- Elaborazione di Document AI nell'interfaccia utente: l'interfaccia utente di Document AI Warehouse consente agli utenti di caricare file PDF/TIFF scansionati o tipi di documenti speciali, entrambi estratti automaticamente dalla funzionalità OCR di Document AI o da processori specializzati rispettivamente prima che il documento venga indicizzato in Document AI Warehouse.
- Gestione delle pipeline di Document AI in modalità batch***: Document AI Warehouse si integra con Workflows per fornire modelli che elaborano pipeline di documenti in modalità batch tramite l'estrazione e la classificazione di Document AI. Si tratta di un'operazione non banale perché comporta operazioni a lunga esecuzione (LRO) e chiamate API asincrone che devono essere gestite per errori e tentativi. Il modello Workflows orchestra queste pipeline. La UI di Document AI Warehouse può essere utilizzata per cercare e monitorare il flusso di documenti attraverso queste pipeline, visualizzare l'output di Document AI per gli errori in ogni passaggio della pipeline e intervenire sui documenti bloccati/non riusciti.
*L'interfaccia utente è in anteprima e dovrebbe essere disponibile a breve.
**Le funzionalità OCR e altri estrattori di documenti sono disponibili nei prodotti Document AI, ma non sono inclusi in Document AI Warehouse.
***Queste funzionalità non fanno parte di Document AI Warehouse. Queste funzionalità sono abilitate da script e componenti open source esterni che i clienti possono personalizzare o di cui possono eseguire il deployment e che non sono implementati in Document AI Warehouse.
Disclaimer e limitazioni note
Per ulteriori informazioni su limitazioni e dichiarazioni di non responsabilità note, vedi Limitazioni e dichiarazioni di non responsabilità note
Terminologia
Di seguito sono riportati i termini utilizzati in Document AI Warehouse.
| Termini, concetti | Definizione, esempi |
| Documento | Un record in Document AI Warehouse su cui gli utenti possono eseguire ricerche, gestire e applicare il controllo dell'accesso. È composto dal documento non elaborato e da alcuni metadati associati.
[Le immagini archiviate in Document AI Warehouse sono chiamate anche "Documenti"] |
| Documento non elaborato [Contenuti] | Il file di contenuti non elaborati (pdf/immagine/binario/blob) del documento. |
| Schema [Tipo di documento] | Ogni documento è di un determinato tipo e viene specificato da uno schema. Ad esempio, una fattura contiene il seguente schema: nome fornitore, nome venditore, importo fattura e così via. |
| Proprietà [metadati] | Campi dello schema del documento che possono essere estratti dal documento o arricchiti (etichettati) dagli utenti. Attualmente i metadati includono i seguenti tipi: valori di testo libero, enum, numerico, data, mappa (una gerarchia JSON di coppie chiave-valore). Abbiamo in programma di supportare i tipi booleano, valuta e altri tipi in futuro. |
| Estrattori di documenti (DocAI e altri) | I documenti possono essere estratti da una pipeline AI, in modo che le estrazioni possano essere inserite e gestite in Document AI Warehouse (come metadati) insieme al documento non elaborato. L'estrazione può essere eseguita da
|
| Cartelle | Una cartella è una raccolta virtuale di documenti (virtuale perché lo stesso documento può essere contenuto in una o più cartelle). Ha un "Tipo/schema di documento" e contiene metadati ed elenchi di controllo dell'accesso proprio come i documenti.
Per aggiungere un documento a una cartella, un utente deve disporre dell'autorizzazione di modifica per la cartella e dell'autorizzazione di visualizzazione per il documento. |
| Link | I link vengono utilizzati per aggiungere documenti alle cartelle o per collegare documenti correlati. I link non hanno un "Tipo di link" |
| Documenti correlati | I documenti possono essere correlati da link direzionali da un documento all'altro. |
| Autorizzazioni per i link | Per aggiungere un documento a una cartella, un utente deve disporre dell'autorizzazione di modifica per l'oggetto di origine del collegamento (ad es. cartella) e dell'autorizzazione di visualizzazione per l'oggetto di destinazione del collegamento (ad es. documento). |
| Norme | Una policy valutata quando viene creato/aggiornato un documento/una cartella e utilizzata per convalidare o aggiornare i metadati, gli ACL o aggiungere/spostare/rimuovere documenti dalle cartelle. Una policy comprende:
|
| Norme relative alle notifiche | È un tipo speciale di criterio in cui l'azione consiste nel pubblicare un messaggio in un argomento Pub/Sub quando viene soddisfatta una determinata condizione. Le applicazioni / i flussi di lavoro di consumo possono utilizzare il messaggio per attivare azioni sui documenti o su altre parti di un flusso di lavoro aziendale. |
| Policy Engine, API Policy | Motore: il server che valuta le policy e intraprende azioni
API: API Admin utilizzata per creare/aggiornare/leggere/eliminare le policy. |
| Ricerca con facet | Un facet è un filtro dei metadati utilizzato in una query di ricerca. Ad esempio, la ricerca di estratti conto bancari con i filtri "Mese = marzo 2021" e "Stato filiale = CA" filtra i risultati di ricerca in base a queste due sfaccettature.
|
| Ricerca semantica | La ricerca semantica supporta sinonimi o termini "semanticamente correlati" nella query di ricerca. Ad esempio, "Patente di guida" restituisce "Permesso di guida". |
| Istogramma di ricerca | L'istogramma è una funzionalità dell'API Search che restituisce la distribuzione (conteggi) dei risultati di ricerca per sfaccettatura. Ad esempio, i risultati di ricerca per Patente di guida restituiscono l'istogramma "CA 500, NV 150, …" |
| Accesso universale e controllo dell'accesso a livello di documento | In Document AI Warehouse sono supportate due modalità di accesso per ogni progetto
|