La canalización de Process-with-Document AI permite a los usuarios procesar documentos existentes con un procesador de Document AI y actualizar las propiedades del documento con las entidades recién extraídas.
Requisitos previos
Antes de comenzar, necesitas lo siguiente:
Un procesador de Document AI listo en el mismo proyecto Google Cloud
- Si no tienes uno, sigue los pasos para crear uno. Puedes crear cualquier tipo, siempre y cuando el tipo de procesador coincida con el tipo de documento.
Carpetas dedicadas de Cloud Storage para almacenar documentos exportados y documentos procesados
- Asegúrate de que las carpetas estén vacías antes de iniciar la canalización.
Es un esquema con asignaciones entre las entidades de Document AI y las propiedades de Document AI Warehouse.
Es posible que las entidades recién extraídas no se conviertan correctamente en entidades de Document AI Warehouse sin esa asignación.
Para agregar asignaciones al esquema, sigue los pasos que se indican en cómo establecer esquemas con asignación.
Ejecuta la canalización
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
"name": "projects/PROJECT_NUMBER/locations/LOCATION",
"process_with_doc_ai_pipeline": {
"documents": [
"projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
],
"export_folder_path": "gs://EXPORT_FOLDER",
"processor_info": {
"processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
},
"processor_results_folder_path": "gs://PROCESS_FOLDER"
},
"request_metadata": {
"user_info": {
"id": "user:USER EMAIL ADDRESS"
}
}
}'La lista documents contiene los nombres de los recursos de los documentos que se procesarán. La ruta de acceso a la carpeta de Cloud Storage export_folder_path se usa para almacenar los documentos exportados antes de enviarlos al procesador. Para obtener más información sobre los campos del cuerpo de la solicitud, consulta la documentación de la API.
Este comando devuelve un nombre de recurso para una operación de larga duración. Con este nombre de recurso, puedes hacer un seguimiento del progreso de la canalización siguiendo el siguiente paso.
Obtén el resultado de la operación de larga duración
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"Próximos pasos
Ve a la IU de Document AI Warehouse o llama a la API de document:get para verificar si los documentos se actualizaron correctamente.