La salida del procesador de división contiene información sobre la división del documento de entrada, incluida una puntuación de confianza. La API de Document AI genera un objeto JSON Document
, y el formato de salida usa el campo entities
para representar las divisiones del documento. La información adicional depende del tipo específico de divisor.
Entity.type
especifica la clasificación del documento. Para obtener una lista completa de los tipos de documentos que se pueden identificar, consulta las siguientes listas.Entity.pageAnchor.pageRefs[]
especifica las páginas que contienen cada subdocumento. Ten en cuenta quepageRefs[].page
se basa en cero y es el índice del campodocument.pages[]
.
A continuación, se muestra una respuesta típica del divisor de JSON para un documento reconocido, que indica un documento de clase form_140
en la segunda y tercera páginas del archivo de entrada:
{
"textAnchor": {
"textSegments": [
{
"startIndex": "5543",
"endIndex": "10470"
}
]
},
"type": "form_1040",
"confidence": 0.8983272,
"pageAnchor": {
"pageRefs": [
{
"page": "1",
"confidence": 0.8983272
},
{
"page": "2",
"confidence": 0.9636311
}
]
}
},
A diferencia del clasificador personalizado, los divisores no proporcionan más de una clase ni sus puntuaciones de confianza.
El divisor no está diseñado para dividir documentos lógicos de más de 30 páginas. Los documentos lógicos de más de 30 páginas (por ejemplo, un extracto bancario de 40 páginas) pueden dividirse en dos o más documentos y clasificarse por separado.
Los divisores identifican los límites de las páginas, pero no dividen el documento de entrada. El SDK de Document AI Toolbox proporciona funciones de utilidad que pueden dividir el documento de entrada según el resultado de un procesador de división.
Se recomienda que los humanos revisen las predicciones de división antes de la división real de archivos, a menos que se demuestre que tienen una precisión aceptable para las necesidades comerciales.
Tipos de documentos identificados
En esta sección, se detallan las clases de documentos que reconocen los procesadores de división previamente entrenados.
[1] El analizador correspondiente para este formulario no admite este tipo de documento. Esto significa que el separador puede identificar y clasificar documentos de este tipo, pero Document AI no proporciona un analizador para extraer información.
Ejemplos de resultados
Procesadores | Ejemplos de resultados |
---|
Muestras de código
Los divisores identifican los límites de las páginas, pero no dividen el documento de entrada. Puedes usar la caja de herramientas de Document AI para dividir físicamente un archivo PDF con los límites de página. En los siguientes ejemplos de código, se imprimen los rangos de páginas sin dividir el PDF:
Java
Para obtener más información, consulta la documentación de referencia de la API de Document AI Java.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener más información, consulta la documentación de referencia de la API de Document AI Node.js.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener más información, consulta la documentación de referencia de la API de Document AI Python.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Document
procesado.
Python
Para obtener más información, consulta la documentación de referencia de la API de Document AI Python.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.