使用 Document AI 的处理流水线

借助“使用 Document AI 处理”流水线，用户可以使用 Document AI 处理器处理现有文档，并使用新提取的实体更新文档属性。

前提条件

在开始之前，您需要做好以下准备：

同一 Google Cloud项目下已准备就绪的 Document AI 处理器。
- 如果您没有处理器，请按照相关步骤创建一个。您可以选择创建任何类型，只要处理器类型与文档类型匹配即可。
用于存储导出的文档和处理后的文档的专用 Cloud Storage 文件夹。
- 请确保文件夹为空，然后再启动流水线。
一种架构，其中包含 Document AI 实体与 Document AI Warehouse 属性之间的映射。
- 如果没有此类映射，新提取的实体可能无法正确转换为 Document AI Warehouse 实体。
- 如需向架构添加映射，请按照设置带映射的架构中的说明操作。

运行流水线

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

documents 列表是要处理的文档的资源名称。Cloud Storage 文件夹路径 export_folder_path 用于存储导出文档，然后再将其发送到处理器。如需详细了解请求正文字段，请参阅 API 文档。

此命令会返回长时间运行的操作的资源名称。有了此资源名称，您就可以按照下一步骤跟踪流水线的进度。

获取长时间运行的操作的结果

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

后续步骤

前往 Document AI Warehouse 界面或调用 document:get API，检查文档是否已成功更新。

使用 Document AI 的处理流水线 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

前提条件

运行流水线

REST

获取长时间运行的操作的结果

REST

后续步骤

使用 Document AI 的处理流水线