TLLM 모델 맞춤설정

Cloud Translation - Advanced API를 사용하여 코드를 작성하지 않고 Google Translation LLM (TLLM) 모델을 맞춤설정합니다. 분야별 콘텐츠에 맞게 맞춤 모델을 조정하여 기본 Google TLLM 모델보다 더 정확한 번역을 생성합니다. TLLM 모델은 수많은 언어 쌍을 포괄하며 범용 텍스트에서 잘 작동합니다. 커스텀 모델은 특화된 전문 용어를 처리하는 데 탁월합니다. 새로운 국가로 확장할 수 있는 전문 보고 서비스를 운영하는 경우 전문가를 고용하는 대신 맞춤 모델을 만들어 실시간으로 작업을 수행하세요.

데이터 준비

커스텀 모델을 학습시키려면 출발어와 도착어로 작성되고 의미가 일치하는 세그먼트 쌍을 제공해야 합니다. 번역 대상 언어와 번역 언어에서 의미가 동일한 단어 또는 문구의 쌍입니다. 세그먼트 쌍의 의미가 가까워질수록 모델이 더 잘 작동합니다. 일치하는 세그먼트 쌍의 데이터 세트를 구성할 때는 사용 사례로 시작하세요.

  • 달성하려는 결과가 무엇인가요?

  • 이 결과를 달성하기 위해 올바르게 번역하는 것이 중요한 세그먼트는 무엇인가요? TLLM 모델이 바로 달성할 수 있나요?

  • 사람이 이러한 주요 세그먼트를 만족스럽게 번역할 수 있나요? 번역 작업이 모호하여 두 언어에 모두 능통한 사람도 만족스럽게 번역할 수 없을 정도라면 TLLM 모델을 사용해도 커스텀 모델과 비슷한 결과를 얻을 수도 있습니다.

  • 시스템에서 번역해야 하는 세그먼트 쌍의 유형과 범위를 가장 잘 보여주는 예시는 무엇인가요?

문제 분야에 적합한 데이터 대응시키기

특정 언어 분야에 적합한 맞춤 번역 모델을 학습시킵니다. 사용 중인 세그먼트 쌍이 관심 분야나 업계의 어휘, 용례, 문법적 특이사항을 가장 적절하게 포괄하고 있는지 확인합니다. 수행하려는 번역 작업의 일반적인 용례가 포함된 문서를 찾아 대응하는 구문 쌍의 의미가 최대한 가깝게 일치하도록 합니다. 언어 간에 어휘 또는 구문이 완벽하게 대응되지 않는 경우도 있지만 혹시 용례에서 발견될 수 있는 다양한 의미를 최대한 포착하려고 노력합니다. 이미 일반 번역 작업에서 탁월한 성능을 발휘하고 있는 모델을 기반으로 하고 있습니다. 예는 커스텀 모델을 조정하는 마지막 단계이므로 관련성이 있고 대표성이 있어야 합니다.

언어 공간의 다양성 포착

특정 분야에 대해 사람들이 글을 쓰는 방식이 획일적이어서 소수의 번역사가 번역한 적은 수의 텍스트 샘플만 있으면 모델을 학습시켜 해당 분야의 일반적인 글쓰기 방식에 맞게 작동시킬 수 있다고 생각하지 마세요. 글을 쓸 때 각자의 개성이 드러나므로 다양한 저자 및 번역사의 세그먼트 쌍을 포함하는 학습 데이터 세트가 다양한 조직의 글을 번역하는 데 유용한 모델을 제시할 가능성이 높습니다. 또한 세그먼트 길이 및 구조의 다양성을 고려해야 합니다. 데이터 세트에서 모든 세그먼트의 길이가 동일하거나 모든 세그먼트가 비슷한 문법적 구조를 공유한다면 이 데이터 세트는 모든 가능성을 포착하는 모델을 빌드하지 못할 것입니다.

데이터 소싱

필요한 데이터가 결정되면 소싱 방법을 찾아야 합니다. 조직에서 수집하는 모든 데이터를 고려합니다. 이렇게 하면 번역 모델 학습에 필요한 데이터가 이미 수집되고 있다는 것을 알 수도 있습니다. 필요한 데이터가 없는 경우 직접 확보하거나 서드 파티에 아웃소싱하세요.

인간 참여형(Human In The Loop) 프로세스 유지

두 언어를 모두 이해하는 사람을 통해 세그먼트 쌍이 일치하고 이해하기 쉽고 정확하게 번역되었는지 확인하세요. 학습 데이터 스프레드시트의 행을 잘못 정렬하는 것과 같은 흔한 실수로 인해 말도 안 되는 번역이 생성될 수 있습니다. Cloud Translation - Advanced API에서 사용 가능한 모델을 얻으려면 고품질 데이터가 필요합니다.

세그먼트 쌍을 사용할 때는 공정성을 고려하세요.

Google의 ML 제품을 뒷받침하는 핵심 원칙은 인간 중심의 머신러닝이며, 공정성을 포함하여 책임감 있는 AI 방침을 특히 중시하는 접근법입니다. ML의 공정성 목표는 알고리즘 시스템이나 알고리즘을 기반한 의사 결정 과정에서 인종, 소득, 성적 지향, 종교, 성별, 기타 차별 및 소외와 역사적으로 관련이 있는 특성과 관련 있는 사람들을 부당하거나 불리하게 대우하는 경우를 이해하고 방지하는 것입니다.

복잡한 데이터 정리

데이터를 사전 처리할 때 실수를 할 수 있으며, 이로 인해 맞춤 모델에 혼란이 발생할 수 있습니다. 다음과 같은 데이터 문제를 해결할 수 있습니다.

  • 특히 도착어 번역이 다를 때 중복된 출발어 세그먼트를 삭제하여 Cloud Translation - Advanced API에서 사용자가 원하는 번역을 사용하도록 합니다.
  • 출발어 세그먼트를 올바른 도착어 세그먼트에 정렬합니다.
  • 세그먼트를 지정된 언어와 일치시킵니다. (예: 중국어 데이터 세트에는 중국어 세그먼트만 포함)
  • 언어가 혼합된 도착어 세그먼트의 경우, 번역되지 않은 단어가 의도적으로 번역되지 않았는지 확인합니다. 번역되지 않은 단어가 실수로 포함된 도착어 세그먼트는 데이터에 노이즈를 더해 모델 품질이 저하될 수 있습니다.
  • 오타 또는 문법 오류가 있는 세그먼트를 수정합니다.
  • 자리표시자 태그 및 HTML 태그와 같이 번역 불가 콘텐츠를 삭제합니다. 번역 불가 콘텐츠는 구두점 오류를 유발할 수 있습니다.
  • 일반적인 것을 특정 명사로 바꾸는 세그먼트 쌍을 포함하지 마세요. 예를 들어 대통령과 같은 일반적인 용어를 JFK로 번역합니다. 대신 이러한 번역을 삭제하거나 특정 명사를 일반적인 명사로 변경하세요.
  • 학습 세트와 테스트 세트에서 중복 세그먼트를 삭제합니다.
  • 모델이 학습하는 방식(예: 제목과 본문의 텍스트 구분)에 영향을 미치는 일관된 대소문자를 사용합니다.

데이터 처리

다음과 같은 제한사항이 적용됩니다.

  • 최대 입력 및 출력 토큰 수:
    • 제공: 1,000(약 4,000자(영문 기준))
  • 검증 데이터 세트 크기: 1,024개 예시
  • 학습 데이터 세트 파일 크기: JSONL의 경우 최대 1GB
  • 학습 예시 길이: 1,000(약 4,000자(영문 기준))
  • 어댑터 크기:
    • Translation LLM V2: 4만 지원됩니다. 다른 값 (예: 1 또는 8)을 사용하면 실패합니다.

디버그

맞춤 모델 디버깅은 모델 자체보다 데이터 디버깅에 관한 것입니다. 모델이 원하는 방식으로 번역하지 않는 경우 데이터를 확인하여 개선할 수 있는 부분을 파악하세요.

테스트

평가 점수가 정상으로 보이더라도 모델을 확인하여 성능이 기대에 부합하는지 확인하세요. 학습 데이터와 테스트 데이터를 동일한 잘못된 샘플 세트에서 추출한 경우, 번역이 잘못되어도 점수가 높게 나타날 수 있습니다. 학습 세트에 없는 몇 가지 예시를 준비합니다. 커스텀 모델의 결과를 Google TLLM 기본 모델과 비교합니다.

기본 모델이 이미 우수하기 때문에 특히 짧은 세그먼트나 학습 세트가 작은 경우 모델이 기본 모델과 동일한 예측을 제시할 수 있습니다. 그렇다면 더 길거나 더 복잡한 세그먼트를 사용해 보세요. 세그먼트가 기본 모델의 예측과 동일하게 반환된다면 이는 데이터 문제일 수 있습니다.

모델에서 발생할 수 있는 오류가 우려되는 경우 테스트 세트 또는 절차에서 모델을 안전하게 사용할 수 있도록 해당 사례를 적절하게 다루는지 확인하세요.

다음 단계

  • 자체 데이터 세트 및 맞춤 모델을 만드는 방법에 대한 자세한 내용은 학습 데이터 준비를 참고하세요.