Process-with-Document AI パイプラインを使用すると、Document AI プロセッサで既存のドキュメントを処理し、新しく抽出されたエンティティでドキュメントのプロパティを更新できます。
前提条件
始める前に、次のものが必要になります。
同じ Google Cloud プロジェクトで Document AI プロセッサが準備されていること。
- プロセッサがない場合は、手順に沿って作成 してください。プロセッサのタイプがドキュメントのタイプと一致していれば、任意のタイプを作成できます。
エクスポートされたドキュメントと処理済みドキュメントを保存するための専用の Cloud Storage フォルダ。
- パイプラインを開始する前に、フォルダが空になっていることを確認してください。
Document AI エンティティと Document AI Warehouse プロパティ間のマッピングを含むスキーマ。
このようなマッピングがないと、新しく抽出されたエンティティが Document AI Warehouse エンティティに正しく変換されない可能性があります。
スキーマにマッピングを追加するには、マッピングを使用してスキーマを設定する の手順に沿って操作します。
パイプラインの実行
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
"name": "projects/PROJECT_NUMBER/locations/LOCATION",
"process_with_doc_ai_pipeline": {
"documents": [
"projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
],
"export_folder_path": "gs://EXPORT_FOLDER",
"processor_info": {
"processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
},
"processor_results_folder_path": "gs://PROCESS_FOLDER"
},
"request_metadata": {
"user_info": {
"id": "user:USER EMAIL ADDRESS"
}
}
}'documents リストは、処理するドキュメントのリソース名です。Cloud Storage フォルダのパス export_folder_path は、プロセッサに送信される前にエクスポートされたドキュメントを保存するために使用されます。リクエスト本文のフィールドの詳細については、API ドキュメントをご覧ください。
このコマンドは、長時間実行オペレーションのリソース名を返します。このリソース名を使用して、次のステップに沿ってパイプラインの進行状況を追跡できます。
長時間実行オペレーションの結果を取得する
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"次のステップ
Document AI Warehouse UI に移動するか、 document:get API を呼び出して、ドキュメントが正常に更新されたかどうかを確認します。