Document AI로 처리 파이프라인

Document AI로 처리 파이프라인을 사용하면 사용자가 Document AI 프로세서로 기존 문서를 처리하고 새로 추출된 항목으로 문서 속성을 업데이트할 수 있습니다.

기본 요건

시작하기 전에 다음이 필요합니다.

  1. 동일한 Google Cloud프로젝트에 준비된 Document AI 프로세서

    • 프로세서가 없으면 단계에 따라 프로세서를 만드세요. 프로세서 유형이 문서 유형과 일치하는 한 어떤 유형이든 만들 수 있습니다.
  2. 내보낸 문서와 처리된 문서를 저장하기 위한 전용 Cloud Storage 폴더

    • 파이프라인을 시작하기 전에 폴더가 비어 있는지 확인합니다.
  3. Document AI 엔티티와 Document AI Warehouse 속성 간의 매핑이 있는 스키마입니다.

    • 이러한 매핑이 없으면 새로 추출된 항목이 Document AI Warehouse 항목으로 올바르게 변환되지 않을 수 있습니다.

    • 스키마에 매핑을 추가하려면 매핑으로 스키마 설정을 따르세요.

파이프라인 실행

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "process_with_doc_ai_pipeline": {
        "documents": [
          "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
        ],
        "export_folder_path": "gs://EXPORT_FOLDER",
        "processor_info": {
          "processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
        },
        "processor_results_folder_path": "gs://PROCESS_FOLDER"
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS"
        }
    }
}'

documents 목록은 처리할 문서의 리소스 이름입니다. Cloud Storage 폴더 경로 export_folder_path는 내보낸 문서를 프로세서로 전송하기 전에 저장하는 데 사용됩니다. 요청 본문 필드에 대한 자세한 내용은 API 문서를 참고하세요.

이 명령어는 장기 실행 작업의 리소스 이름을 반환합니다. 이 리소스 이름을 사용하여 다음 단계를 따라 파이프라인의 진행 상황을 추적할 수 있습니다.

장기 실행 작업 결과 가져오기

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

다음 단계

Document AI Warehouse UI로 이동하거나 document:get API를 호출하여 문서가 업데이트되었는지 확인합니다.