Présentation du concept
Document AI Warehouse est une plate-forme cloud intégrée permettant de stocker, de rechercher, d'organiser, de gérer et d'analyser des documents et leurs métadonnées structurées (appelées "propriétés"). Les documents incluent des documents structurés (par exemple, des formulaires, des factures) et non structurés (par exemple, des contrats, des articles de recherche). Leurs propriétés (métadonnées) incluent des données extraites par IA à partir de documents et des tags attribués manuellement ou par IA (par exemple, le numéro de compte, l'ID de prêt, le type de document).
Principaux avantages et fonctionnalités
Document AI Warehouse offre plusieurs avantages par rapport aux anciens dépôts. Voici quelques fonctionnalités et avantages :
- API-first : une seule API intégrée pour gérer les documents et leurs propriétés (métadonnées extraites ou taguées), qui s'intègre à vos workflows et applications.
- Gestion des métadonnées : pour gérer les métadonnées extraites et taguées.
- Gouvernance : intégrée à IAM et aux annuaires d'entreprise
- Un contrôle d'accès précis (autorisations) au niveau des documents et des dossiers peut être attribué aux utilisateurs et aux groupes pour consulter, modifier et gérer (partager et supprimer) les documents.
- Document AI Warehouse est intégré à IAM (Cloud Identity), ce qui permet de provisionner des utilisateurs et des groupes dans Cloud Identity.
- Les utilisateurs/groupes peuvent également être fédérés/synchronisés dans Cloud Identity à partir d'un fournisseur d'identité / LDAP d'entreprise, tel qu'Azure AD, Active Directory ou Keycloak.
- Recherche : le produit est compatible avec la recherche sémantique enrichie, y compris les fonctionnalités suivantes :
- Recherche en texte intégral
- Filtrer les résultats de recherche par propriétés (date, valeur numérique, énumération, texte).
Les filtres peuvent être combinés avec les opérateurs
ANDetOR. - Recherche sémantique : prend en charge les synonymes, les fautes d'orthographe et les formes fléchies courants. Vous pouvez utiliser des guillemets (" ") dans la requête pour spécifier des mots clés exacts.
- Synonymes personnalisés : termes spécifiques à votre secteur d'activité ou à votre entreprise, par exemple.
- Rechercher dans une hiérarchie de dossiers racine
- Opérateurs pour les mots clés de recherche :
""(expression exacte),|(ou),+(et),-(exclure)
- Organisation : Gestion flexible des dossiers
- Les documents peuvent être classés dans un ou plusieurs dossiers, en fonction de l'application (par exemple, une carte d'identité est placée dans un dossier KYC, un dossier de prêt ou un dossier de compte bancaire) sans répliquer les documents.
- Ces dossiers disposent de leurs propres propriétés et contrôles d'accès, indépendants de ceux des documents.
- Les dossiers peuvent être imbriqués dans une ou plusieurs hiérarchies (par exemple, AllLoans->State->Branch->Loans ou LoanTypes->Loans).
- Les utilisateurs peuvent rechercher des documents dans une hiérarchie de dossiers (par exemple, rechercher dans Tous les prêts > État).
- UI* : le produit inclut une UI accessible sur le Web avec les fonctionnalités suivantes :
- Explorateur de documents : rechercher des documents, filtrer les résultats de recherche, sélectionner des documents pour mettre à jour des propriétés ou les supprimer de manière groupée
- Lecteur de documents : afficher des documents, afficher/modifier leurs propriétés,attribuer des LCA, ajouter des documents à des dossiers
- Importer : importez des documents et exécutez-les dans un extracteur DocAI** (OCR ou un analyseur spécialisé compatible tel que Invoice DocAI).
- Explorateur de dossiers : ajoutez des documents à un ou plusieurs dossiers, explorez la hiérarchie des dossiers.
- Interface utilisateur intégrable : les composants de l'explorateur de documentation et du lecteur de documentation (pour les PDF) peuvent être intégrés aux applications des clients.
- Connecteurs*** vers les dépôts cloud et sur site courants : nous fournissons un connecteur Cloud Storage vers Document AI Warehouse (sous forme de modèle distinct basé sur Google Workflows) qui peut être personnalisé/étendu à d'autres dépôts. Nous collaborons également avec des partenaires pour fournir des connecteurs prêts à l'emploi vers des dépôts tels que SharePoint, Amazon S3, IBM FileNet et d'autres, afin d'ingérer et d'indexer des documents.
- Flexibilité de la migration par rapport à la fédération : le produit présente une architecture flexible qui permet de migrer le contenu de vos documents vers Document AI Warehouse ou de le conserver dans votre dépôt si la migration du contenu présente des contraintes (nous indexons simplement le contenu et les métadonnées).
- Intégration aux workflows de documents : cette fonctionnalité s'intègre à Google Workflows et à d'autres workflows de traitement de documents en prenant en charge :
- Propriétés représentant l'état d'un document dans un workflow et API que les workflows peuvent utiliser pour mettre à jour l'état des documents
- Interface de l'explorateur de documents : permet de suivre la progression des documents dans un pipeline de workflow, ce qui permet à un utilisateur d'inspecter et de gérer les échecs et les documents bloqués dans le pipeline de workflow.
- Notifications conditionnelles : les documents répondant à certaines conditions peuvent déclencher/notifier un workflow via un sujet Pub/Sub ou un appel d'API Web. Par exemple, Déclencheur : OnUpdate ; Condition : (DocType=Invoice et TotalAmount>$1000) -> envoyer une notification Pub/Sub
- Gestion des règles et application de la conformité : les notifications conditionnelles et planifiées peuvent être utilisées pour déclencher des workflows qui appliquent des règles (par exemple, la gestion des enregistrements, la conservation et l'élimination, les obligations légales) à des documents spécifiques dans Document AI Warehouse.
- Fichiers acceptés : les fichiers PDF texte, les images (fichiers PDF numérisés, TIFF, JPEG) et les fichiers Office (DOCX, PPTX, XLSX) sont soumis à la reconnaissance optique des caractères et indexés.
- Remarque : Bien que le produit soit axé sur les documents, il est également utilisé pour gérer les images associées (par exemple, dans des secteurs tels que l'assurance, l'ingénierie, la construction, la recherche, etc.).
Intégration à DocAI : Document AI Warehouse est intégré aux processeurs Document AI à plusieurs niveaux :
- Traitement Document AI dans l'UI : l'UI Document AI Warehouse permet aux utilisateurs d'importer des fichiers PDF/TIFF numérisés ou des types de documents spéciaux, qui sont automatiquement extraits par la reconnaissance optique des caractères (OCR) de Document AI ou par des processeurs spécialisés, avant l'indexation du document dans Document AI Warehouse.
- Gérer les pipelines Document AI par lot*** : Document AI Warehouse s'intègre à Workflows et fournit des modèles de pipelines de traitement de documents par lot grâce à l'extraction et à la classification Document AI. Il s'agit d'une tâche non triviale, car elle implique des opérations de longue durée (LRO) et des appels d'API asynchrones qui doivent être gérés en cas d'échec et de nouvelle tentative. Le modèle Workflows orchestre ces pipelines. L'interface utilisateur de Document AI Warehouse peut être utilisée pour rechercher et suivre le flux de documents dans ces pipelines, visualiser la sortie Document AI en cas d'échec à chaque étape du pipeline et prendre des mesures concernant les documents bloqués ou ayant échoué.
* L'interface utilisateur est en version Preview et devrait bientôt être disponible en version GA.
** La reconnaissance optique des caractères (OCR) et d'autres extracteurs de documents sont disponibles dans les produits Document AI, mais ne sont pas inclus dans Document AI Warehouse.
*** Ces fonctionnalités ne font pas partie de Document AI Warehouse. Ces fonctionnalités sont activées par des composants et des scripts Open Source externes que les clients peuvent déployer ou personnaliser. Elles ne sont pas implémentées dans Document AI Warehouse.
Avis de non-responsabilité et limites connues
Pour en savoir plus sur les clauses de non-responsabilité et les limites connues, consultez Clauses de non-responsabilité et limites connues.
Terminologie
Vous trouverez ci-dessous les termes utilisés dans Document AI Warehouse.
| Termes et concepts | Définition et exemples |
| Document | Enregistrement dans Document AI Warehouse sur lequel les utilisateurs peuvent effectuer des recherches, gérer et appliquer le contrôle des accès. Il comprend le document brut et certaines métadonnées associées.
[Les images stockées dans Document AI Warehouse sont également appelées "documents"] |
| Document brut [Contenu] | Fichier de contenu brut (pdf/image/binaire/blob) du document. |
| Schéma [type de document] | Chaque document est d'un certain type et est spécifié par un schéma. Par exemple, une facture contient le schéma suivant : nom du fournisseur, nom du marchand, montant de la facture, etc. |
| Propriété [métadonnées] | Champs du schéma de document qui peuvent être extraits du document ou enrichis (étiquetés) par les utilisateurs. Actuellement, les métadonnées incluent les types suivants : valeurs de texte libre, Enum, numérique, date, Map (hiérarchie JSON de paires clé/valeur). Nous prévoyons de prendre en charge les types booléen, monétaire et d'autres types à l'avenir. |
| Extracteurs de documents (DocAI et autres) | Les documents peuvent être extraits par un pipeline d'IA afin que les extractions puissent être ingérées et gérées dans Document AI Warehouse (en tant que métadonnées) avec le document brut. L'extraction peut être effectuée par
|
| Dossiers | Un dossier est une collection virtuelle de documents (virtuelle, car un même document peut être contenu dans un ou plusieurs dossiers). Il possède un "type/schéma de document" et contient des métadonnées et des listes de contrôle d'accès, comme les documents.
Pour ajouter un document à un dossier, un utilisateur doit disposer de l'autorisation de modification pour le dossier et de l'autorisation d'affichage pour le document. |
| Liens | Les liens permettent d'ajouter des documents à des dossiers ou d'associer des documents. Les liens n'ont pas de "type de lien". |
| Documents associés | Les documents peuvent être associés par des liens directionnels. |
| Autorisations d'association | Pour ajouter un document à un dossier, un utilisateur doit disposer de l'autorisation de modification pour l'objet "Lier depuis" (par exemple, un dossier) et de l'autorisation d'affichage pour l'objet "Lier vers" (par exemple, un document). |
| Règle | Règle évaluée lorsqu'un document ou un dossier est créé ou mis à jour. Elle permet de valider ou de mettre à jour les métadonnées et les LCA des documents, ou d'ajouter, de déplacer ou de supprimer des documents dans des dossiers. Une règle comprend les éléments suivants :
|
| Règles de notification | Il s'agit d'un type de règle spécial dans lequel l'action consiste à publier un message dans un sujet Pub/Sub lorsqu'une certaine condition est remplie. Les applications / workflows consommateurs peuvent consommer le message pour déclencher des actions sur les documents ou d'autres parties d'un workflow métier. |
| Moteur de règles, API de règles | Moteur : serveur qui évalue les règles et effectue des actions
API : API Admin utilisée pour créer, mettre à jour, lire et supprimer des règles. |
| Recherche par attribut | Un attribut est un filtre de métadonnées utilisé dans une requête de recherche. Par exemple, si vous recherchez des relevés bancaires avec les filtres "Mois = mars 2021" et "État de la succursale = CA", les résultats de la recherche seront filtrés par ces deux facettes.
|
| Recherche sémantique | La recherche sémantique accepte les synonymes ou les termes "sémantiquement associés" dans la requête de recherche. Par exemple, "permis de conduire" renvoie "permis de conduire". |
| Histogramme de recherche | L'histogramme est une fonctionnalité de l'API Search qui renvoie la distribution (nombre) des résultats de recherche par attribut. Par exemple, les résultats de recherche pour "permis de conduire" renvoient l'histogramme "CA 500, NV 150, …". |
| Accès universel ou contrôle d'accès au niveau des documents | Deux modes d'accès sont disponibles dans Document AI Warehouse pour chaque projet
|