您可以使用“导出到 Workbench”流水线将文档从 Document AI Warehouse 转移到 Document AI Workbench。该流水线会将文档导出到 Cloud Storage 文件夹,然后将其导入到 Document AI 数据集。您提供 Cloud Storage 文件夹和 Document AI 数据集。
前提条件
在开始之前,您需要做好以下准备:
- 在同一 Google Cloud 项目下,按照步骤创建处理器。
指定一个空的 Cloud Storage 文件夹来存储导出的文档。
在自定义处理器页面上,点击配置数据集,然后点击继续以初始化数据集。
运行流水线
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer ${AUTH_TOKEN}" \ --data '{ "name": "projects/PROJECT_NUMBER/locations/LOCATION", "export_cdw_pipeline": { "documents": [ "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT", ], "export_folder_path": "gs://CLOUD STORAGE FOLDER", "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset", "training_split_ratio": RATIO, }, "request_metadata": { "user_info": { "id": "user:USER EMAIL ADDRESS", } }}'
可以在 training_split_ratio 字段中以浮点数形式指定训练和测试拆分比率。例如,对于一组包含 10 份文档的数据集,如果将比率指定为 0.8,则系统会将 8 份文档添加到训练集,并将剩余的 2 份文档添加到测试集。
此命令会返回长时间运行的操作的资源名称。您可以使用此 ID 在下一步中跟踪流水线的进度。
获取长时间运行的操作的结果
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"下一步
- 前往 Document AI 查看导出的文档。