匯出至 Workbench 管道

您可以使用「匯出至 Workbench」管道,將文件從 Document AI Warehouse 轉移至 Document AI Workbench。這個管道會將文件匯出至 Cloud Storage 資料夾,然後匯入 Document AI 資料集。您提供 Cloud Storage 資料夾和 Document AI 資料集。

必要條件

開始之前,請先確認您具備下列項目:

  • 在同一個 Google Cloud 專案中,按照步驟建立處理器
  • 指定空白的 Cloud Storage 資料夾,用於儲存匯出的文件。

  • 在自訂處理器頁面,按一下「設定資料集」,然後按一下「繼續」,初始化資料集。

執行管道

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

您可以在 training_split_ratio 欄位中,以浮點數指定訓練和測試的分割比例。舉例來說,如果有一組 10 份文件,且比例指定為 0.8,則 8 份文件會新增至訓練集,其餘 2 份文件則會新增至測試集。

這項指令會傳回長時間執行作業的資源名稱。您可以在下一個步驟中使用此 ID,追蹤管道的進度。

取得長時間執行的作業結果

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

下一步