使用 Document AI 的处理流水线

借助“使用 Document AI 处理”流水线,用户可以使用 Document AI 处理器处理现有文档,并使用新提取的实体更新文档属性。

前提条件

在开始之前,您需要做好以下准备:

  1. 同一 Google Cloud项目下已准备就绪的 Document AI 处理器。

    • 如果您没有处理器,请按照相关步骤创建一个。您可以选择创建任何类型,只要处理器类型与文档类型匹配即可。
  2. 用于存储导出的文档和处理后的文档的专用 Cloud Storage 文件夹。

    • 请确保文件夹为空,然后再启动流水线。
  3. 一种架构,其中包含 Document AI 实体与 Document AI Warehouse 属性之间的映射。

    • 如果没有此类映射,新提取的实体可能无法正确转换为 Document AI Warehouse 实体。

    • 如需向架构添加映射,请按照设置带映射的架构中的说明操作。

运行流水线

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

documents 列表是要处理的文档的资源名称。Cloud Storage 文件夹路径 export_folder_path 用于存储导出文档,然后再将其发送到处理器。如需详细了解请求正文字段,请参阅 API 文档

此命令会返回长时间运行的操作的资源名称。有了此资源名称,您就可以按照下一步骤跟踪流水线的进度。

获取长时间运行的操作的结果

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

后续步骤

前往 Document AI Warehouse 界面或调用 document:get API,检查文档是否已成功更新。