使用 Document AI 處理管道

使用者可透過「使用 Document AI 處理」管道,以 Document AI 處理器處理現有文件,並使用新擷取的實體更新文件屬性。

必要條件

開始之前,請先確認您具備下列項目:

  1. 同一個 Google Cloud專案中已準備好 Document AI 處理器。

    • 如果沒有處理器,請按照步驟建立處理器。只要處理器類型與文件類型相符,您就可以選擇建立任何類型。
  2. 專用的 Cloud Storage 資料夾,用於儲存匯出的文件和處理後的文件。

    • 啟動管道前,請確認資料夾為空白。
  3. 結構定義,其中包含 Document AI 實體與 Document AI 倉儲屬性之間的對應。

    • 如果沒有這類對應,新擷取的實體可能無法正確轉換為 Document AI Warehouse 實體。

    • 如要將對應項目新增至結構定義,請按照設定具有對應項目的結構定義操作。

執行管道

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

documents 清單是要處理的文件資源名稱。Cloud Storage 資料夾路徑 export_folder_path 用於儲存匯出的文件,然後再傳送至處理器。如要進一步瞭解要求主體欄位,請參閱 API 說明文件

這項指令會傳回長時間執行作業的資源名稱。有了這個資源名稱,您就可以按照下一個步驟追蹤管道的進度。

取得長時間執行的作業結果

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

後續步驟

前往 Document AI 倉儲使用者介面,或呼叫 document:get API,確認文件是否已成功更新。