您可以使用「匯出至 Workbench」管道,將文件從 Document AI Warehouse 轉移至 Document AI Workbench。這個管道會將文件匯出至 Cloud Storage 資料夾,然後匯入 Document AI 資料集。您提供 Cloud Storage 資料夾和 Document AI 資料集。
必要條件
開始之前,請先確認您具備下列項目:
- 在同一個 Google Cloud 專案中,按照步驟建立處理器。
指定空白的 Cloud Storage 資料夾,用於儲存匯出的文件。
在自訂處理器頁面,按一下「設定資料集」,然後按一下「繼續」,初始化資料集。
執行管道
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer ${AUTH_TOKEN}" \ --data '{ "name": "projects/PROJECT_NUMBER/locations/LOCATION", "export_cdw_pipeline": { "documents": [ "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT", ], "export_folder_path": "gs://CLOUD STORAGE FOLDER", "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset", "training_split_ratio": RATIO, }, "request_metadata": { "user_info": { "id": "user:USER EMAIL ADDRESS", } }}'
您可以在 training_split_ratio 欄位中,以浮點數指定訓練和測試的分割比例。舉例來說,如果有一組 10 份文件,且比例指定為 0.8,則 8 份文件會新增至訓練集,其餘 2 份文件則會新增至測試集。
這項指令會傳回長時間執行作業的資源名稱。您可以在下一個步驟中使用此 ID,追蹤管道的進度。
取得長時間執行的作業結果
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"下一步
- 前往 Document AI 檢查匯出的文件。