借助“使用 Document AI 处理”流水线,用户可以使用 Document AI 处理器处理现有文档,并使用新提取的实体更新文档属性。
前提条件
在开始之前,您需要做好以下准备:
同一 Google Cloud项目下已准备就绪的 Document AI 处理器。
- 如果您没有处理器,请按照相关步骤创建一个。您可以选择创建任何类型,只要处理器类型与文档类型匹配即可。
用于存储导出的文档和处理后的文档的专用 Cloud Storage 文件夹。
- 请确保文件夹为空,然后再启动流水线。
一种架构,其中包含 Document AI 实体与 Document AI Warehouse 属性之间的映射。
如果没有此类映射,新提取的实体可能无法正确转换为 Document AI Warehouse 实体。
如需向架构添加映射,请按照设置带映射的架构中的说明操作。
运行流水线
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
"name": "projects/PROJECT_NUMBER/locations/LOCATION",
"process_with_doc_ai_pipeline": {
"documents": [
"projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
],
"export_folder_path": "gs://EXPORT_FOLDER",
"processor_info": {
"processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
},
"processor_results_folder_path": "gs://PROCESS_FOLDER"
},
"request_metadata": {
"user_info": {
"id": "user:USER EMAIL ADDRESS"
}
}
}'documents 列表是要处理的文档的资源名称。Cloud Storage 文件夹路径 export_folder_path 用于存储导出文档,然后再将其发送到处理器。如需详细了解请求正文字段,请参阅 API 文档。
此命令会返回长时间运行的操作的资源名称。有了此资源名称,您就可以按照下一步骤跟踪流水线的进度。
获取长时间运行的操作的结果
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"后续步骤
前往 Document AI Warehouse 界面或调用 document:get API,检查文档是否已成功更新。