'Workbench로 내보내기' 파이프라인을 사용하여 Document AI Warehouse에서 Document AI Workbench로 문서를 전송할 수 있습니다. 파이프라인은 문서를 Cloud Storage 폴더로 내보낸 다음 Document AI 데이터 세트로 가져옵니다. Cloud Storage 폴더와 Document AI 데이터 세트를 제공합니다.
기본 요건
시작하기 전에 다음이 필요합니다.
- 동일한 Google Cloud 프로젝트에서 단계에 따라 프로세서를 만듭니다.
내보낸 문서를 저장할 빈 Cloud Storage 폴더를 지정합니다.
맞춤 프로세서 페이지에서 데이터 세트 구성을 클릭한 다음 계속을 클릭하여 데이터 세트를 초기화합니다.
파이프라인 실행
REST
curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer ${AUTH_TOKEN}" \ --data '{ "name": "projects/PROJECT_NUMBER/locations/LOCATION", "export_cdw_pipeline": { "documents": [ "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT", ], "export_folder_path": "gs://CLOUD STORAGE FOLDER", "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset", "training_split_ratio": RATIO, }, "request_metadata": { "user_info": { "id": "user:USER EMAIL ADDRESS", } }}'
학습 및 테스트 분할 비율은 training_split_ratio 필드에 부동 소수점 숫자로 지정할 수 있습니다. 예를 들어 문서가 10개인 경우 비율이 0.8로 지정되면 문서 8개가 학습 세트에 추가되고 나머지 문서 2개가 테스트 세트에 추가됩니다.
이 명령어는 장기 실행 작업의 리소스 이름을 반환합니다. 다음 단계에서 파이프라인의 진행 상황을 추적하는 데 사용합니다.
장기 실행 작업 결과 가져오기
REST
curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"다음 단계
- Document AI로 이동하여 내보낸 문서를 확인합니다.