Panoramica di Document AI Warehouse

Panoramica concettuale

Document AI Warehouse è una piattaforma integrata basata su cloud per archiviare, cercare, organizzare, gestire e analizzare documenti e relativi metadati strutturati (chiamati proprietà). I documenti includono dati strutturati (ad es. moduli, fatture) e non strutturati (ad es. contratti, documenti di ricerca) e le relative proprietà (metadati) includono dati estratti dai documenti tramite l'AI e tag assegnati manualmente o tramite l'AI (ad es. numero di conto, ID prestito, tipo di documento).

Funzionalità e vantaggi principali

Document AI Warehouse offre diversi vantaggi rispetto ai repository legacy. Di seguito sono riportate alcune funzionalità e vantaggi:

  • API-first: un'unica API integrata per gestire i documenti e le relative proprietà (metadati estratti o taggati), che si integra nei tuoi flussi di lavoro e nelle tue applicazioni.
  • Gestione dei metadati: per gestire i metadati estratti e con tag.
  • Governance: integrata con IAM e directory aziendali
    • Il controllo dell'accesso (autorizzazioni) granulare a livello di documento e cartella può essere assegnato a utenti e gruppi per visualizzare, modificare, gestire (condividere, eliminare) i documenti.
    • Document AI Warehouse è integrato con IAM (Cloud Identity), in modo che gli utenti e i gruppi possano essere sottoposti a provisioning in Cloud Identity
    • Gli utenti/gruppi possono anche essere federati/sincronizzati in Cloud Identity da un provider di identità / LDAP aziendale, ad esempio Azure AD, Active Directory e Keycloak.
  • Ricerca: il prodotto supporta la ricerca semantica avanzata, incluse le seguenti funzionalità:
    • Ricerca a testo intero
    • Filtrare i risultati di ricerca per proprietà (data, numerico, enumerazione, testo). I filtri possono essere combinati con gli operatori AND e OR
    • Ricerca semantica: supporta sinonimi ed errori ortografici comuni, derivazioni. Le virgolette (" ") possono essere utilizzate nella query per specificare le parole chiave a corrispondenza esatta.
    • Sinonimi personalizzati: termini specifici di settore o specifici dell'azienda, ad esempio.
    • Eseguire ricerche all'interno di una gerarchia di cartelle di primo livello
    • Operatori per le parole chiave di ricerca: ""corrispondenza esatta, |or, +and, - exclude
  • Organizzazione: gestione flessibile delle cartelle
    • I documenti possono essere catalogati in una o più cartelle, in base all'applicazione (ad esempio, una carta d'identità viene inserita in una cartella KYC, una cartella di prestito o una cartella di conto bancario), senza replica del documento.
    • Queste cartelle hanno proprietà e controllo dell'accesso propri, indipendenti da quelli del documento.
    • Le cartelle possono essere nidificate in una o più gerarchie [ad esempio, AllLoans->State->Branch->Loans o LoanTypes->Loans].
    • Gli utenti possono cercare documenti all'interno di una gerarchia di cartelle, ad esempio cercare all'interno di AllLoans->State
  • UI*: il prodotto include un'interfaccia utente accessibile dal web con le seguenti funzionalità:
    • Esplora documenti: cerca documenti, filtra i risultati di ricerca, seleziona i documenti per aggiornare o eliminare le proprietà in blocco
    • Visualizzatore documenti: visualizza i documenti, visualizza/aggiorna le relative proprietà,assegna ACL, aggiungi alle cartelle
    • Carica: carica i documenti ed esegui l'estrazione tramite un estrattore DocAI** (OCR o un analizzatore sintattico specializzato supportato come Invoice DocAI).
    • Esplora cartelle: aggiungi documenti a una o più cartelle, esplora la gerarchia delle cartelle.
    • UI incorporabile: i componenti Esplora documenti e Visualizzatore documenti (per i PDF) possono essere integrati nelle applicazioni del cliente
  • Connettori*** a repository on-premise e cloud comuni: forniamo un connettore da Cloud Storage a Document AI Warehouse (come modello separato basato su Google Workflows) che può essere personalizzato/esteso ad altri repository. Collaboriamo inoltre con partner per fornire connettori preconfigurati a repository come SharePoint, Amazon S3, IBM FileNet e altri, per importare e indicizzare i documenti.
  • Flessibilità di migrazione e federazione: il prodotto supporta un'architettura flessibile che consente la migrazione dei contenuti dei documenti in Document AI Warehouse o l'utilizzo in loco se sono presenti vincoli nella migrazione dei contenuti (indichiamo semplicemente contenuti e metadati)
  • Integrato con i flussi di lavoro dei documenti: si integra con Google Workflows e altri flussi di lavoro di elaborazione dei documenti supportando:
    • Proprietà: rappresentano lo stato di un documento in un flusso di lavoro e le API che i flussi di lavoro possono utilizzare per aggiornare lo stato dei documenti
    • Interfaccia di Document Explorer: per monitorare l'avanzamento dei documenti attraverso una pipeline del flusso di lavoro, consentendo a un essere umano di ispezionare, gestire gli errori e i documenti bloccati nella pipeline del flusso di lavoro.
    • Notifiche condizionali: i documenti che soddisfano determinate condizioni possono attivare/notificare un workflow tramite un argomento Pub/Sub o una chiamata API web. Ad esempio, Trigger: OnUpdate; Condition: (DocType=Invoice and TotalAmount>$1000) -> send Pub/Sub Notification
  • Gestione dei criteri e applicazione della conformità: le notifiche condizionali e quelle programmate possono essere utilizzate per attivare flussi di lavoro che applicano criteri (ad esempio, gestione dei record, conservazione ed eliminazione, sospensioni legali) a documenti specifici in Document AI Warehouse.
  • File supportati: PDF di testo, immagini (PDF scansionati, file TIFF, file JPEG), file Office (DOCX, PPTX, XLSX) - vengono eseguiti tramite OCR e indicizzati.
    • Nota: anche se il prodotto è incentrato sui documenti, viene utilizzato anche per gestire le immagini associate (ad es. in verticali come assicurazioni, ingegneria, edilizia, ricerca e così via).
  • Integrato con DocAI: Document AI Warehouse è integrato con i processori Document AI a diversi livelli:

    • Elaborazione di Document AI nell'interfaccia utente: l'interfaccia utente di Document AI Warehouse consente agli utenti di caricare file PDF/TIFF scansionati o tipi di documenti speciali, entrambi estratti automaticamente dalla funzionalità OCR di Document AI o da processori specializzati rispettivamente prima che il documento venga indicizzato in Document AI Warehouse.
    • Gestione delle pipeline di Document AI in modalità batch***: Document AI Warehouse si integra con Workflows per fornire modelli che elaborano pipeline di documenti in modalità batch tramite l'estrazione e la classificazione di Document AI. Si tratta di un'operazione non banale perché comporta operazioni a lunga esecuzione (LRO) e chiamate API asincrone che devono essere gestite per errori e tentativi. Il modello Workflows orchestra queste pipeline. La UI di Document AI Warehouse può essere utilizzata per cercare e monitorare il flusso di documenti attraverso queste pipeline, visualizzare l'output di Document AI per gli errori in ogni passaggio della pipeline e intervenire sui documenti bloccati/non riusciti.

*L'interfaccia utente è in anteprima e dovrebbe essere disponibile a breve.

**Le funzionalità OCR e altri estrattori di documenti sono disponibili nei prodotti Document AI, ma non sono inclusi in Document AI Warehouse.

***Queste funzionalità non fanno parte di Document AI Warehouse. Queste funzionalità sono abilitate da script e componenti open source esterni che i clienti possono personalizzare o di cui possono eseguire il deployment e che non sono implementati in Document AI Warehouse.

Disclaimer e limitazioni note

Per ulteriori informazioni su limitazioni e dichiarazioni di non responsabilità note, vedi Limitazioni e dichiarazioni di non responsabilità note

Terminologia

Di seguito sono riportati i termini utilizzati in Document AI Warehouse.

Termini, concetti Definizione, esempi
Documento Un record in Document AI Warehouse su cui gli utenti possono eseguire ricerche, gestire e applicare il controllo dell'accesso. È composto dal documento non elaborato e da alcuni metadati associati.

[Le immagini archiviate in Document AI Warehouse sono chiamate anche "Documenti"]

Documento non elaborato [Contenuti] Il file di contenuti non elaborati (pdf/immagine/binario/blob) del documento.
Schema [Tipo di documento] Ogni documento è di un determinato tipo e viene specificato da uno schema. Ad esempio, una fattura contiene il seguente schema: nome fornitore, nome venditore, importo fattura e così via.
Proprietà [metadati] Campi dello schema del documento che possono essere estratti dal documento o arricchiti (etichettati) dagli utenti. Attualmente i metadati includono i seguenti tipi: valori di testo libero, enum, numerico, data, mappa (una gerarchia JSON di coppie chiave-valore). Abbiamo in programma di supportare i tipi booleano, valuta e altri tipi in futuro.
Estrattori di documenti (DocAI e altri) I documenti possono essere estratti da una pipeline AI, in modo che le estrazioni possano essere inserite e gestite in Document AI Warehouse (come metadati) insieme al documento non elaborato. L'estrazione può essere eseguita da
  • Parser specializzati di Document AI (per moduli di approvvigionamento, moduli di mutuo casa e altri)
  • OCR, AutoML, Forms Parser (per immagini come TIFF/PNG/ecc.)
  • Altri modelli personalizzati
  • Strumenti di estrazione del testo per formati di documenti specializzati come PDF, documenti di Office e altri.

    Tieni presente che Document AI Warehouse può funzionare con qualsiasi pipeline di estrazione che chiama le API Document AI Warehouse per inserire/aggiornare i documenti.

Cartelle Una cartella è una raccolta virtuale di documenti (virtuale perché lo stesso documento può essere contenuto in una o più cartelle). Ha un "Tipo/schema di documento" e contiene metadati ed elenchi di controllo dell'accesso proprio come i documenti.

Per aggiungere un documento a una cartella, un utente deve disporre dell'autorizzazione di modifica per la cartella e dell'autorizzazione di visualizzazione per il documento.

Link I link vengono utilizzati per aggiungere documenti alle cartelle o per collegare documenti correlati. I link non hanno un "Tipo di link"
Documenti correlati I documenti possono essere correlati da link direzionali da un documento all'altro.
Autorizzazioni per i link Per aggiungere un documento a una cartella, un utente deve disporre dell'autorizzazione di modifica per l'oggetto di origine del collegamento (ad es. cartella) e dell'autorizzazione di visualizzazione per l'oggetto di destinazione del collegamento (ad es. documento).
Norme Una policy valutata quando viene creato/aggiornato un documento/una cartella e utilizzata per convalidare o aggiornare i metadati, gli ACL o aggiungere/spostare/rimuovere documenti dalle cartelle. Una policy comprende:
  • Un trigger, ad esempio, in caso di aggiornamento/creazione di un documento
  • Condizione, ad esempio Invoice.Amount <$1000
  • Azione, ad esempio Aggiorna metadati documento, Valutazione condizione di ritorno, Aggiungi documento alla cartella e così via.

    Un criterio è in genere associato a un tipo di documento.

    È espressa in Common Expression Language (formato JSON, specificato in un secondo momento) a basso codice

Norme relative alle notifiche È un tipo speciale di criterio in cui l'azione consiste nel pubblicare un messaggio in un argomento Pub/Sub quando viene soddisfatta una determinata condizione. Le applicazioni / i flussi di lavoro di consumo possono utilizzare il messaggio per attivare azioni sui documenti o su altre parti di un flusso di lavoro aziendale.
Policy Engine, API Policy Motore: il server che valuta le policy e intraprende azioni

API: API Admin utilizzata per creare/aggiornare/leggere/eliminare le policy.

Ricerca con facet Un facet è un filtro dei metadati utilizzato in una query di ricerca. Ad esempio, la ricerca di estratti conto bancari con i filtri "Mese = marzo 2021" e "Stato filiale = CA" filtra i risultati di ricerca in base a queste due sfaccettature.
  • La sfaccettatura è in genere un campo enumerato. Nelle versioni future supporteremo le sfaccettature numeriche e di data.
  • Le sfaccettature per un tipo di documento vengono specificate nello schema del documento dagli amministratori (tramite l'API Admin)
Ricerca semantica La ricerca semantica supporta sinonimi o termini "semanticamente correlati" nella query di ricerca. Ad esempio, "Patente di guida" restituisce "Permesso di guida".
Istogramma di ricerca L'istogramma è una funzionalità dell'API Search che restituisce la distribuzione (conteggi) dei risultati di ricerca per sfaccettatura. Ad esempio, i risultati di ricerca per Patente di guida restituiscono l'istogramma "CA 500, NV 150, …"
Accesso universale e controllo dell'accesso a livello di documento In Document AI Warehouse sono supportate due modalità di accesso per ogni progetto
  1. Accesso universale: qualsiasi utente può accedere a qualsiasi documento del progetto. L'API è controllata dall'accesso agli account utente o agli account di servizio, ma non alle autorizzazioni a livello di documento
  2. ACL a livello di documento: agli utenti vengono concesse autorizzazioni a livello di documento. A ogni documento sono assegnate autorizzazioni di lettura/utilizzo/eliminazione per utenti/gruppi.