使用者可透過「使用 Document AI 處理」管道,以 Document AI 處理器處理現有文件,並使用新擷取的實體更新文件屬性。
必要條件
開始之前,請先確認您具備下列項目:
同一個 Google Cloud專案中已準備好 Document AI 處理器。
- 如果沒有處理器,請按照步驟建立處理器。只要處理器類型與文件類型相符,您就可以選擇建立任何類型。
專用的 Cloud Storage 資料夾,用於儲存匯出的文件和處理後的文件。
- 啟動管道前,請確認資料夾為空白。
結構定義,其中包含 Document AI 實體與 Document AI 倉儲屬性之間的對應。
如果沒有這類對應,新擷取的實體可能無法正確轉換為 Document AI Warehouse 實體。
如要將對應項目新增至結構定義,請按照設定具有對應項目的結構定義操作。
執行管道
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
"name": "projects/PROJECT_NUMBER/locations/LOCATION",
"process_with_doc_ai_pipeline": {
"documents": [
"projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
],
"export_folder_path": "gs://EXPORT_FOLDER",
"processor_info": {
"processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
},
"processor_results_folder_path": "gs://PROCESS_FOLDER"
},
"request_metadata": {
"user_info": {
"id": "user:USER EMAIL ADDRESS"
}
}
}'documents 清單是要處理的文件資源名稱。Cloud Storage 資料夾路徑 export_folder_path 用於儲存匯出的文件,然後再傳送至處理器。如要進一步瞭解要求主體欄位,請參閱 API 說明文件。
這項指令會傳回長時間執行作業的資源名稱。有了這個資源名稱,您就可以按照下一個步驟追蹤管道的進度。
取得長時間執行的作業結果
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"後續步驟
前往 Document AI 倉儲使用者介面,或呼叫 document:get API,確認文件是否已成功更新。