Process-with-Document-AI パイプライン

Process-with-Document AI パイプラインを使用すると、ユーザーは Document AI プロセッサで既存のドキュメントを処理し、新しく抽出されたエンティティでドキュメントのプロパティを更新できます。

前提条件

始める前に、次のものが必要になります。

  1. 同じ Google Cloudプロジェクトで準備された Document AI プロセッサ。

    • プロセッサがない場合は、作成する手順に沿って作成します。プロセッサのタイプがドキュメントのタイプと一致していれば、任意のタイプを作成できます。
  2. エクスポートされたドキュメントと処理済みのドキュメントを保存するための専用の Cloud Storage フォルダ。

    • パイプラインを開始する前に、フォルダが空であることを確認してください。
  3. Document AI エンティティと Document AI ウェアハウスのプロパティ間のマッピングを含むスキーマ。

    • このようなマッピングがないと、新しく抽出されたエンティティが Document AI Warehouse エンティティに正しく変換されない可能性があります。

    • スキーマにマッピングを追加するには、マッピングを使用してスキーマを設定するをご覧ください。

パイプラインの実行

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

documents リストは、処理するドキュメントのリソース名です。Cloud Storage フォルダのパス export_folder_path は、エクスポートされたドキュメントをプロセッサに送信する前に保存するために使用されます。リクエスト本文のフィールドの詳細については、API ドキュメントをご覧ください。

このコマンドは、長時間実行オペレーションのリソース名を返します。このリソース名を使用して、次の手順でパイプラインの進行状況を追跡できます。

長時間実行オペレーションの結果を取得する

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

次のステップ

Document AI ウェアハウス UI に移動するか、document:get API を呼び出して、ドキュメントが正常に更新されたかどうかを確認します。