导出到工作台流水线

您可以使用 export-to-Workbench 流水线将文档从 Document AI Warehouse 转移到 Document AI Workbench。该流水线会将文档导出到 Cloud Storage 文件夹,然后将其导入到 Document AI 数据集。您需要提供 Cloud Storage 文件夹和 Document AI 数据集。

前提条件

在开始之前,您需要做好以下准备:

  • 在同一 Google Cloud 项目下,按照步骤创建处理器
  • 指定一个空的 Cloud Storage 文件夹来存储导出的文档。

  • 在自定义处理器页面上,依次点击配置数据集继续 以初始化数据集。

运行流水线

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

您可以在 training_split_ratio 字段中以浮点数的形式指定训练集和测试集的拆分比例。例如,对于一组 10 个文档,如果将该比例指定为 0.8,则 8 个文档将添加到训练集,其余 2 个文档将添加到测试集。

此命令会返回长时间运行的操作的资源名称。您可以在下一步中使用该名称来跟踪流水线的进度。

获取长时间运行的操作结果

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

下一步

  • 前往您的 Document AI 以 检查导出的文档。