문서 라벨 지정

프로세서 버전을 학습시키거나 업트레이닝하거나 평가하려면 문서에 라벨이 지정된 데이터 세트가 필요합니다.

이 페이지에서는 프로세서 스키마의 라벨을 데이터 세트의 가져온 문서에 적용하는 방법을 설명합니다.

이 페이지에서는 학습, 업트레이닝 또는 평가를 지원하는 프로세서를 이미 만들었다고 가정합니다. 프로세서가 지원되는 경우 이제 학습 탭이 콘솔에 Google Cloud 표시됩니다. 또한 데이터 세트를 만들고 문서를 가져오고 프로세서 스키마를 정의했다고 가정합니다.

생성형 AI 추출을 위한 이름 필드

필드 이름 지정 방식은 생성형 AI를 사용하여 필드를 추출하는 정확도에 영향을 미칩니다. 필드 이름을 지정할 때는 다음 권장사항을 따르는 것이 좋습니다.

  • 문서에서 필드를 설명하는 데 사용된 언어와 동일한 언어로 필드 이름을 지정합니다.: 예를 들어 문서에 Employer Address로 설명된 필드가 있는 경우 필드 이름을 employer_address로 지정합니다. emplr_addr과 같은 약어를 사용하지 마세요.

  • 현재 필드 이름에서 공백이 지원되지 않습니다. 공백 대신 _를 사용합니다. 예를 들어 First Namefirst_name으로 이름이 지정됩니다.

  • 이름을 반복하여 정확도를 개선합니다. Document AI에는 필드 이름을 변경할 수 없는 제한사항이 있습니다. 다른 이름을 테스트하려면 이름 바꾸기 항목 이름 도구를 사용하여 데이터 세트에서 이전 항목의 이름을 새 이름으로 업데이트하고, 데이터 세트를 가져오고, 프로세서에서 새 항목을 사용 설정하고, 기존 필드를 사용 중지하거나 삭제합니다.

제로샷 및 퓨샷 학습

Gemini가 포함된 모델에는 제로샷 및 퓨샷 학습이 있어 학습 데이터가 거의 또는 전혀 없는 고성능 모델을 만들 수 있습니다.

제로샷 학습 은 업트레이닝 없이 사전 학습된 모델이 테스트 중에 이전에 접하지 않은 클래스와 항목을 인식하고 분류하는 방법을 학습하는 머신러닝 예시입니다.

퓨샷 학습 은 모델이 클래스당 몇 가지 학습 예시만으로 새 클래스와 항목을 인식하고 분류하는 방법을 학습하는 것입니다. 대규모의 라벨이 잘 지정된 데이터 세트에 대한 사전 학습된 모델의 지식을 활용하여 퓨샷 예시 작업의 성능을 개선합니다.

학습 데이터 세트가 깔끔하고 라벨이 신중하게 지정된 경우 퓨샷 예시가 더 효과적입니다. 일반적으로 이는 모델이 학습할 수 있도록 10개 이상의 테스트 및 10개 이상의 학습 예시를 사용할 수 있음을 의미합니다.

라벨 지정 옵션

문서 라벨 지정 옵션은 다음과 같습니다.

콘솔에서 수동으로 라벨 지정 Google Cloud

학습 탭에서 문서를 선택하여 라벨 지정 도구를 엽니다.

라벨 지정 도구의 왼쪽 스키마 라벨 목록에서 '추가' 기호를 선택하여 경계 상자 도구를 선택하고 문서에서 항목을 강조표시하고 라벨에 할당합니다.

다음 스크린샷에서 문서의 EMPL_SSN EMPLR_ID_NUMBER, EMPLR_NAME_ADDRESS, FEDERAL_INCOME_TAX_WH, SS_TAX_WH, SS_WAGES, WAGES_TIPS_OTHER_COMP 필드에 라벨이 할당되었습니다.

label-process-1

경계 상자 도구로 체크박스 항목을 선택할 때는 연결된 텍스트가 아닌 체크박스 자체만 선택합니다. 왼쪽에 표시된 체크박스 항목이 문서의 내용과 일치하도록 선택되거나 선택 해제되었는지 확인합니다.

label-process-2

상위-하위 항목에 라벨을 지정할 때는 상위 항목에 라벨을 지정하지 마세요. 상위 항목은 하위 항목의 컨테이너일 뿐입니다. 하위 항목에만 라벨을 지정합니다. 상위 항목은 자동으로 업데이트됩니다.

하위 항목에 라벨을 지정할 때는 첫 번째 하위 항목에 라벨을 지정한 다음 관련 하위 항목을 해당 줄과 연결합니다. 이러한 항목에 처음으로 라벨을 지정할 때 두 번째 하위 항목에서 이를 확인할 수 있습니다. 예를 들어 인보이스에서 설명에 라벨을 지정하면 다른 항목과 마찬가지로 보입니다. 하지만 다음에 수량 에 라벨을 지정하면 상위를 선택하라는 메시지가 표시됩니다.

각 새 항목에 대해 새 상위 항목 을 선택하여 각 항목에 대해 이 단계를 반복합니다.

상위-하위 항목은 최대 3개의 중첩 레이어가 있는 테이블에서 지원됩니다. 파운데이션 모델은 3개의 필드 등급 (조부모, 부모, 자녀)을 지원하므로 하위 항목은 한 수준의 하위 항목을 가질 수 있습니다. 중첩에 대한 자세한 내용은 3단계 중첩을 참고하세요.

빠른 테이블

테이블에 라벨을 지정할 때 각 행에 라벨을 반복해서 지정하는 것은 지루할 수 있습니다. 행 항목 구조를 복제할 수 있는 매우 편리한 도구가 있습니다. 이 기능은 가로로 정렬된 행에서만 작동합니다.

  1. 먼저 평소와 같이 첫 번째 행에 라벨을 지정합니다.
  2. 그런 다음 행을 나타내는 상위 항목 위로 포인터를 가져갑니다. 행 더 추가 를 선택합니다. 행이 더 많은 행을 만드는 템플릿이 됩니다.

    label-process-3

  3. 테이블의 나머지 영역을 선택합니다.

    label-process-4

이 도구는 주석을 추측하며 일반적으로 작동합니다. 처리할 수 없는 테이블의 경우 수동으로 주석을 추가합니다.

콘솔에서 단축키 사용

사용 가능한 단축키를 보려면 라벨 지정 콘솔의 오른쪽 상단에 있는 메뉴 를 선택합니다. 다음 표와 같이 단축키 목록이 표시됩니다.

작업 단축키
확대 Alt + = (macOS의 경우 Option + =)
축소 Alt + - (macOS의 경우 Option + -)
확대/축소하여 맞추기 Alt + 0 (macOS의 경우 Option + 0)
스크롤하여 확대/축소 Alt + 스크롤 (macOS의 경우 Option + 스크롤)
화면 이동 스크롤
반전 화면 이동 Shift + 스크롤
드래그하여 화면 이동 스페이스바 + 마우스 드래그
실행취소 Ctrl + Z (macOS의 경우 Control + Z)
재실행 Ctrl + Shift + Z (macOS의 경우 Control + +Shift + Z)

자동 라벨 지정

사용 가능한 경우 기존 프로세서 버전을 사용하여 라벨 지정을 시작할 수 있습니다.

  1. 자동 라벨 지정은 가져오기 중에 시작할 수 있습니다. 모든 문서에 지정된 프로세서 버전을 사용하여 주석이 추가됩니다.

    label-process-5

  2. 자동 라벨 지정은 라벨이 지정되지 않은 카테고리 또는 자동으로 라벨이 지정된 카테고리의 문서에 대해 가져오기 후에 시작할 수 있습니다. 선택한 모든 문서에 지정된 프로세서 버전을 사용하여 주석이 추가됩니다.

    label-process-6

자동으로 라벨이 지정된 문서를 라벨이 지정됨으로 표시하지 않고 학습 또는 업트레이닝하거나 테스트 세트에서 사용할 수는 없습니다. 자동으로 라벨이 지정된 주석을 수동으로 검토하고 수정한 다음 라벨이 지정됨으로 표시 를 선택하여 수정을 저장합니다. 그런 다음 문서를 적절하게 할당할 수 있습니다.

사전에 라벨이 지정된 문서 가져오기

JSON Document 파일을 가져올 수 있습니다. 문서의 entity가 프로세서 스키마의 라벨과 일치하면 가져오기 도구에서 entity가 라벨 인스턴스로 변환됩니다. JSON 문서 파일을 가져오는 방법은 여러 가지가 있습니다.

문서 라벨 지정 권장사항

고품질 프로세서를 학습시키려면 일관된 라벨 지정이 필요합니다. 다음 작업을 하는 것이 좋습니다.

  • 라벨 지정 안내 만들기: 안내에는 일반적인 사례와 특이 사례의 예시가 모두 포함되어야 합니다. 팁:

    • 주석을 추가해야 하는 필드와 라벨 지정을 일관되게 만드는 방법을 설명합니다. 예를 들어 '금액'에 라벨을 지정할 때 통화 기호에 라벨을 지정해야 하는지 지정합니다. 라벨이 일관되지 않으면 프로세서 품질이 저하됩니다.
    • 라벨 유형이 REQUIRED_ONCE 또는 OPTIONAL_ONCE인 경우에도 항목의 모든 발생에 라벨을 지정합니다. 예를 들어 invoice_id가 문서에 두 번 표시되면 모든 발생에 라벨을 지정합니다.
    • 일반적으로 기본 경계 상자 도구를 사용하여 먼저 라벨을 지정하는 것이 좋습니다. 실패하면 텍스트 선택 도구를 사용합니다.
    • OCR에서 라벨 값을 올바르게 감지하지 못하면 값을 수동으로 수정하지 마세요. 그러면 학습 목적으로 사용할 수 없게 됩니다.

다음은 몇 가지 샘플 라벨 지정 안내입니다.

  • 주석 작성자 학습: 주석 작성자가 가이드라인을 이해하고 체계적인 오류 없이 따를 수 있도록 합니다. 이를 달성하는 한 가지 방법은 여러 수련생이 동일한 문서 세트에 주석을 추가하도록 하는 것입니다. 그러면 트레이너가 각 수련생의 주석 작업 품질을 확인할 수 있습니다. 수련생이 벤치마크 수준의 정확도를 달성할 때까지 이 프로세스를 반복해야 할 수 있습니다.
  • 초기 검토: 새 라벨 지정자가 사용 사례에 대해 라벨을 지정한 처음 몇 개의 문서 (약 10개)는 수정해야 하는 많은 오류를 방지하기 위해 많은 문서에 라벨을 지정하기 전에 검토해야 합니다.
  • 주석 품질 검토: 주석은 노동 집약적인 작업이므로 학습된 주석 작성자도 실수를 할 수 있습니다. 주석은 학습된 주석 작성자가 한 명 이상 확인하는 것이 좋습니다.

설명 프롬프트 추가

커스텀 추출기 및 맞춤 분류 기준의 스키마에 라벨을 추가할 때 라벨에 설명을 추가할 수 있습니다. 이렇게 하면 라벨을 식별하는 데 사용할 프롬프트를 제공하여 프로세서를 학습시키는 데 도움이 됩니다. 약간의 변형을 시도하여 응답 품질을 테스트할 수 있습니다. 예를 들어 '총액', '총 인보이스 금액' 또는 '인보이스 총액'입니다.

데이터 세트 다시 동기화

다시 동기화는 데이터 세트의 Cloud Storage 폴더를 Document AI의 메타데이터 내부 색인과 일관되게 유지합니다. Cloud Storage 폴더를 실수로 변경하고 데이터를 동기화하려는 경우에 유용합니다.

다시 동기화하려면 다음 단계를 따르세요.

프로세서 세부정보 탭의 스토리지 위치 행 옆에 있는 을(를) 선택한 다음 데이터 세트 다시 동기화를 선택합니다.

label-process-8

사용법 참고사항:

  • Cloud Storage 폴더에서 문서를 삭제하면 다시 동기화가 데이터 세트에서 문서를 삭제합니다.
  • Cloud Storage 폴더에 문서를 추가해도 다시 동기화는 데이터 세트에 문서를 추가하지 않습니다. 문서를 추가하려면 가져오세요.
  • Cloud Storage 폴더에서 문서 라벨을 수정하면 다시 동기화가 데이터 세트의 문서 라벨을 업데이트합니다.

데이터 세트 마이그레이션

가져오기 및 내보내기를 사용하면 데이터 세트의 모든 문서를 한 프로세서에서 다른 프로세서로 이동할 수 있습니다. 이는 서로 다른 리전 또는 Google Cloud 프로젝트에 프로세서가 있거나, 스테이징 및 프로덕션에 서로 다른 프로세서가 있거나, 일반적인 오프라인 사용을 위해 유용할 수 있습니다.

문서와 라벨만 내보내집니다. 프로세서 스키마, 문서 할당 (학습/테스트/할당되지 않음), 문서 라벨 지정 상태 (라벨이 지정됨, 라벨이 지정되지 않음, 자동으로 라벨이 지정됨)와 같은 데이터 세트 메타데이터는 내보내지지 않습니다.

데이터 세트를 복사하고 가져온 다음 대상 프로세서를 학습시키는 것은 소스 프로세서를 학습시키는 것과 정확히 동일하지 않습니다. 이는 학습 프로세스 시작 시 임의 값이 사용되기 때문입니다. importProcessorVersion API 호출을 사용하여 프로젝트 간에 정확히 동일한 모델을 가져오고 마이그레이션합니다. 정책에서 허용하는 경우 프로세서를 더 높은 환경 (예: 개발에서 스테이징, 프로덕션)으로 마이그레이션하는 것이 좋습니다.

데이터 세트 내보내기

모든 문서를 JSON Document 파일로 Cloud Storage 폴더에 내보내려면 데이터 세트 내보내기를 선택합니다.

몇 가지 중요한 사항에 유의하세요.

  1. 내보내기 중에 테스트, 학습, 할당되지 않음의 세 가지 하위 폴더가 생성됩니다. 문서는 이러한 하위 폴더에 적절하게 배치됩니다.

  2. 문서의 라벨 지정 상태는 내보내지지 않습니다. 나중에 문서를 가져오면 자동으로 라벨이 지정됨 으로 표시되지 않습니다.

  3. Cloud Storage가 다른 Google Cloud 프로젝트에 있는 경우 Document AI가 해당 위치에 파일을 쓸 수 있도록 액세스 권한을 부여해야 합니다. 특히 스토리지 객체 생성자 역할을 Document AI의 핵심 서비스 에이전트 service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com에 부여해야 합니다. 자세한 내용은 서비스 에이전트를 참고하세요.

데이터 세트 가져오기

절차는 문서 가져오기와 동일합니다.

선택적 라벨 지정 사용자 가이드

선택적 라벨 지정은 라벨을 지정할 문서에 대한 추천을 제공합니다. 다양한 학습 및 테스트 데이터 세트를 만들어 대표 모델을 학습시킬 수 있습니다. 선택적 라벨 지정이 실행될 때마다 데이터 세트에서 가장 다양한 문서 (최대 30개)가 선택됩니다.

추천 문서 가져오기

  1. CDE 프로세서를 만들고 문서를 가져옵니다.

    • 학습에는 100개 이상 (테스트에는 25개)이 필요합니다.
    • 충분한 문서가 가져오고 선택적 라벨 지정이 완료되면 정보 표시줄이 표시됩니다.

    label-process-9

    label-process-10

  2. 추천 문서가 없는 CDE 프로세서의 경우 샘플링을 위해 분할에 충분한 문서가 있도록 더 많은 문서를 가져옵니다.

    • 이렇게 하면 추천 카테고리 에서 추천 문서를 사용 설정해야 합니다. 추천 문서를 수동으로 요청할 수 있어야 합니다.
    • 상단에 추천 문서를 필터링하는 새 필터가 있습니다.

    label-process-11

추천 문서에 라벨 지정

  1. 왼쪽 라벨 목록 패널에서 추천 카테고리 로 이동합니다. 이러한 문서에 라벨 지정을 시작합니다.

    label-process-12

  2. 프로세서가 학습된 경우 정보 표시줄에서 자동 라벨 지정 을 선택합니다. 추천 문서에 라벨을 지정합니다.

    label-process-13

  3. 그런 다음 프로세서에 이동할 추천 문서가 있는 경우 표시줄에서 지금 검토 를 선택하여 이동할 수 있습니다. 자동으로 라벨이 지정된 모든 문서는 정확성을 위해 검토해야 합니다. 검토를 시작합니다.

    label-process-14

모든 추천 문서에 라벨을 지정한 후 학습

정보 표시줄에서 지금 학습 으로 이동합니다. 추천 문서에 라벨이 지정되면 학습을 추천하는 다음 정보 표시줄이 표시됩니다.

label-process-15

지원되는 기능 및 제한사항

기능 설명 지원됨
이전 프로세서 지원 이전에 가져온 데이터 세트가 있는 이전 프로세서에서는 제대로 작동하지 않을 수 있습니다.