Document AI로 처리 파이프라인을 사용하면 사용자가 Document AI 프로세서로 기존 문서를 처리하고 새로 추출된 항목으로 문서 속성을 업데이트할 수 있습니다.
기본 요건
시작하기 전에 다음이 필요합니다.
동일한 Google Cloud프로젝트에 준비된 Document AI 프로세서
- 프로세서가 없으면 단계에 따라 프로세서를 만드세요. 프로세서 유형이 문서 유형과 일치하는 한 어떤 유형이든 만들 수 있습니다.
내보낸 문서와 처리된 문서를 저장하기 위한 전용 Cloud Storage 폴더
- 파이프라인을 시작하기 전에 폴더가 비어 있는지 확인합니다.
Document AI 엔티티와 Document AI Warehouse 속성 간의 매핑이 있는 스키마입니다.
이러한 매핑이 없으면 새로 추출된 항목이 Document AI Warehouse 항목으로 올바르게 변환되지 않을 수 있습니다.
스키마에 매핑을 추가하려면 매핑으로 스키마 설정을 따르세요.
파이프라인 실행
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
"name": "projects/PROJECT_NUMBER/locations/LOCATION",
"process_with_doc_ai_pipeline": {
"documents": [
"projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT"
],
"export_folder_path": "gs://EXPORT_FOLDER",
"processor_info": {
"processor_name": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR"
},
"processor_results_folder_path": "gs://PROCESS_FOLDER"
},
"request_metadata": {
"user_info": {
"id": "user:USER EMAIL ADDRESS"
}
}
}'documents 목록은 처리할 문서의 리소스 이름입니다. Cloud Storage 폴더 경로 export_folder_path는 내보낸 문서를 프로세서로 전송하기 전에 저장하는 데 사용됩니다. 요청 본문 필드에 대한 자세한 내용은 API 문서를 참고하세요.
이 명령어는 장기 실행 작업의 리소스 이름을 반환합니다. 이 리소스 이름을 사용하여 다음 단계를 따라 파이프라인의 진행 상황을 추적할 수 있습니다.
장기 실행 작업 결과 가져오기
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"다음 단계
Document AI Warehouse UI로 이동하거나 document:get API를 호출하여 문서가 업데이트되었는지 확인합니다.