Workbench로 내보내기 파이프라인

'Workbench로 내보내기' 파이프라인을 사용하여 Document AI Warehouse에서 Document AI Workbench로 문서를 전송할 수 있습니다. 파이프라인은 문서를 Cloud Storage 폴더로 내보낸 다음 Document AI 데이터 세트로 가져옵니다. Cloud Storage 폴더와 Document AI 데이터 세트를 제공합니다.

기본 요건

시작하기 전에 다음이 필요합니다.

  • 동일한 Google Cloud 프로젝트에서 단계에 따라 프로세서를 만듭니다.
  • 내보낸 문서를 저장할 빈 Cloud Storage 폴더를 지정합니다.

  • 맞춤 프로세서 페이지에서 데이터 세트 구성을 클릭한 다음 계속을 클릭하여 데이터 세트를 초기화합니다.

파이프라인 실행

REST

curl --location --request POST 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION:runPipeline' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer ${AUTH_TOKEN}" \
--data '{
    "name": "projects/PROJECT_NUMBER/locations/LOCATION",
    "export_cdw_pipeline": {
        "documents": [
            "projects/PROJECT_NUMBER/locations/LOCATION/documents/DOCUMENT",
        ],
        "export_folder_path": "gs://CLOUD STORAGE FOLDER",
        "doc_ai_dataset": "projects/PROJECT_NUMBER/locations/LOCATION/processors/PROCESSOR/dataset",
        "training_split_ratio": RATIO,
    },
    "request_metadata": {
        "user_info": {
            "id": "user:USER EMAIL ADDRESS",
        }
    }
}'

학습 및 테스트 분할 비율은 training_split_ratio 필드에 부동 소수점 숫자로 지정할 수 있습니다. 예를 들어 문서가 10개인 경우 비율이 0.8로 지정되면 문서 8개가 학습 세트에 추가되고 나머지 문서 2개가 테스트 세트에 추가됩니다.

이 명령어는 장기 실행 작업의 리소스 이름을 반환합니다. 다음 단계에서 파이프라인의 진행 상황을 추적하는 데 사용합니다.

장기 실행 작업 결과 가져오기

REST

curl --location --request GET 'https://contentwarehouse.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION' \
--header "Authorization: Bearer ${AUTH_TOKEN}"

다음 단계

  • Document AI로 이동하여 내보낸 문서를 확인합니다.