Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

导出到工作台流水线

您可以使用 export-to-Workbench 流水线将文档从 Document AI Warehouse 转移到 Document AI Workbench。该流水线会将文档导出到 Cloud Storage 文件夹，然后将其导入到 Document AI 数据集。您需要提供 Cloud Storage 文件夹和 Document AI 数据集。

前提条件

在开始之前，您需要做好以下准备：

在同一 Google Cloud 项目下，按照步骤创建处理器。
指定一个空的 Cloud Storage 文件夹来存储导出的文档。
在自定义处理器页面上，依次点击配置数据集 和继续以初始化数据集。

运行流水线

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

您可以在 training_split_ratio 字段中以浮点数的形式指定训练集和测试集的拆分比例。例如，对于一组 10 个文档，如果将该比例指定为 0.8，则 8 个文档将添加到训练集，其余 2 个文档将添加到测试集。

此命令会返回长时间运行的操作的资源名称。您可以在下一步中使用该名称来跟踪流水线的进度。

获取长时间运行的操作结果

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

下一步

前往您的 Document AI 以检查导出的文档。

导出到工作台流水线 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

前提条件

运行流水线

REST

获取长时间运行的操作结果

REST

下一步

导出到工作台流水线