La sortie du processeur de fractionnement contient des informations sur le fractionnement du document d'entrée, y compris un score de confiance. L'API Document AI génère un objet JSON Document
. Le format de sortie utilise le champ entities
pour représenter les divisions de document. Les informations supplémentaires dépendent du type de répartiteur.
Entity.type
spécifie la classification du document. Pour obtenir la liste complète des types de documents pouvant être identifiés, consultez les listes suivantes.Entity.pageAnchor.pageRefs[]
spécifie les pages contenant chaque sous-document. Notez quepageRefs[].page
est basé sur zéro et correspond à l'index du champdocument.pages[]
.
Voici une réponse typique du répartiteur JSON pour un document reconnu, indiquant un document de classe form_140
sur les deuxième et troisième pages du fichier d'entrée :
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
Contrairement aux classificateurs personnalisés, les séparateurs ne fournissent pas plus d'une classe et leurs scores de confiance.
Le séparateur n'est pas conçu pour diviser les documents logiques de plus de 30 pages. Les documents logiques de plus de 30 pages (par exemple, un relevé bancaire de 40 pages) peuvent être divisés en plusieurs documents et classés séparément.
Les séparateurs identifient les limites des pages, mais ne divisent pas le document d'entrée. Le SDK Document AI Toolbox fournit des fonctions utilitaires qui peuvent diviser le document d'entrée en fonction de la sortie d'un processeur de fractionnement.
Nous vous recommandons vivement de faire examiner les prédictions de fractionnement par des humains avant de fractionner réellement les fichiers, sauf si leur précision est jugée acceptable pour les besoins de l'entreprise.
Types de documents identifiés
Cette section décrit en détail les classes de documents reconnues par les processeurs de fractionnement préentraînés.
[1] L'analyseur correspondant à ce formulaire n'est pas compatible avec ce type de document. Cela signifie que le séparateur peut identifier et classer les documents de ce type, mais que Document AI ne fournit pas d'analyseur pour extraire les informations.
Exemples de résultats
Processeurs | Exemples de résultats |
---|
Exemples de code
Les séparateurs identifient les limites des pages, mais ne divisent pas le document d'entrée pour vous. Vous pouvez utiliser la boîte à outils Document AI pour diviser physiquement un fichier PDF en utilisant les limites de page. Les exemples de code suivants impriment les plages de pages sans fractionner le PDF :
Java
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Java.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Node.js.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Python.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Document
traité.
Python
Pour en savoir plus, consultez la documentation de référence de l'API Document AI Python.
Pour vous authentifier auprès de Document AI, configurez les Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.