TLLM モデルをカスタマイズする
Cloud Translation - Advanced API を使用して、コードを記述せずに Google Translation LLM(TLLM)モデルをカスタマイズします。カスタムモデルを分野固有のコンテンツに合わせて調整することで、デフォルトの Google TLLM モデルよりも正確な翻訳結果を得ることができます。TLLM モデルは、多数の言語ペアに対応し、汎用的なテキストに適しています。カスタムモデルは、特定のニッチな語彙の処理に優れています。新しい国々に展開する可能性のある専門的なレポート サービスを運営している場合は、専門家を雇用するのではなく、カスタムモデルを作成して調整し、リアルタイムでジョブを実行します。
データの準備
カスタムモデルをトレーニングするには、ソース言語とターゲット言語で一致するセグメントのペアを指定します。これは、翻訳元と翻訳先の言語で同じ意味を持つ単語やフレーズのペアです。セグメントのペアの意味が近いほど、モデルはうまく機能します。一致するセグメント ペアのデータセットを作成するときは、ユースケースから始めます。
どのような結果を得ようとしているのか。
その結果を得るために、どのようなセグメントを正しく翻訳することが重要か。TLLM モデルですぐに実現できますか?
人間が十分な品質でその主要なセグメントを翻訳できるか。両方の言語に堪能な人でも十分な仕上がりを見込めないほど、その翻訳タスクが曖昧である場合、TLLM モデルのパフォーマンスはカスタムモデルと同程度になる可能性があります。
システムに翻訳させる必要があるセグメント ペアの種類と範囲を最もよく表すのは、どのようなサンプルか。
データを問題の分野に合わせる
特定の言語分野に適合するようにカスタム翻訳モデルをトレーニングします。このとき、セグメントのペアが、対象の業界や分野の語彙、用例、文法上の特性をできる限り網羅するようにしてください。対象となる翻訳タスクで典型的な用例を含むドキュメントを探し、翻訳元と翻訳先の言語でフレーズの意味ができる限り近いことを確認してください。語彙や構文が言語間で完全には対応しない場合もありますが、できる限り、出現することが予想される多様な言い回しなどを網羅するように努めてください。汎用的な翻訳ですでに高い成果を達成しているモデルを土台にしています。サンプルはカスタムモデルを調整する最後のステップなので、関連性があり、代表的なサンプルであることを確認してください。
言語空間の多様性を考慮する
特定の分野に関して人が文章を書く方法はほぼ統一されており、少数の翻訳者によって翻訳された少量のテキスト サンプルがあれば、その分野について誰が書いた文章でも通用するモデルをトレーニングするのに十分であると考えるのはやめましょう。文章にはそれぞれ個性があるため、多くの著者や翻訳者によるセグメントペアが含まれているトレーニング データセットを用意することで、多様な組織の文章の翻訳に役立つモデルを構築できる可能性が高くなります。また、セグメントの長さや構造の多様性も考慮してください。データセット内のすべてのセグメントが同じサイズの場合や、文法構造が似ている場合、あらゆる可能性に対応できる優れたモデルを構築できません。
データを調達する
必要なデータが決まったら、次にデータの調達方法を見つける必要があります。組織で現在収集しているあらゆるデータを考慮に入れる。翻訳モデルのトレーニングに必要なデータがすでに収集されている場合もあります。必要なデータがない場合は、手動で取得するか、サードパーティに委託します。
担当者が必ず確認を行う
可能であれば、両言語をよく理解する人が、セグメントペアが正確に一致し、わかりやすく正確な翻訳になっていることを確認してください。トレーニング データのスプレッドシートの行がずれるなどの一般的なミスで、意味不明な翻訳になることがあります。Cloud Translation - Advanced API で使用可能なモデルを取得するには、高品質のデータが必要です。
セグメント ペアでは公平性を考慮する
Google の ML プロダクトを支える基本原則は、人間を中心とした機械学習です。これは責任ある AI への取り組みを重視したアプローチであり、公平性への取り組みなどが含まれます。ML における公平性の目標は、人種、収入、性的指向、宗教、性別、その他の特徴(歴史的に差別や疎外と関連付けられてきたもの)に関連して、アルゴリズム システムやアルゴリズム支援の意思決定において不当または偏見のある扱いが起こる場合や場所を理解し、防止することです。
データをクリーンアップする
データの前処理でミスを犯す可能性があり、それがカスタムモデルを混乱させる可能性があります。データに関する次のような問題がないか注意し、あった場合は修正してください。
- 重複するソース セグメントを削除します(特に、ターゲット言語の翻訳が異なる場合)。これにより、Cloud Translation - Advanced API が優先の翻訳言語を使用するようになります。
- ソース セグメントと適正なターゲット セグメントが一致するよう調整します。
- 指定された言語に対してセグメントを照合します。(例: 中国語のデータセットには中国語のセグメントのみを含めます)。
- 複数の言語が混在するターゲット セグメントの場合は、未翻訳の単語が意図的にそうされているものであることを確認します。翻訳されていない単語を誤って含んだターゲット セグメントにより、データにノイズが発生し、モデルの品質が低下する可能性があります。
- 入力ミスや文法的な誤りのあるセグメントを修正します。
- プレースホルダ タグや HTML タグなど、翻訳できないコンテンツは削除します。翻訳できないコンテンツは句読点エラーとなる可能性があります。
- 一般的なものを固有名詞に置き換えるセグメント ペアは含めないでください。たとえば、「大統領」のような一般的な用語を「JFK」に変換します。代わりに、そのような翻訳を削除するか、固有名詞を普通名詞に変更してください。
- トレーニング セットとテストセットで重複するセグメントを削除します。
- 大文字と小文字の区別を統一します。これは、見出しと本文の区別など、モデルがどのように学習するかに影響します。
データの処理
次の制限が適用されます。
- 入力トークンと出力トークンの最大数:
- サービング: 1,000(約 4,000 文字)
- 検証データセットのサイズ: 1,024 個のサンプル
- トレーニング データセット ファイルサイズ: JSONL の場合、最大 1 GB
- トレーニング サンプルの長さ: 1,000(約 4,000 文字)
- アダプタサイズ:
Translation LLM V2: サポートされている値は 4 のみです。他の値(1 や 8 など)を使用すると、失敗します。
デバッグ
カスタムモデルのデバッグは、モデル自体よりもデータを重点的にデバッグする作業です。モデルが意図したとおりに翻訳されない場合は、データをチェックして改善の余地がある箇所を確認します。
テスト
評価スコアに問題がない場合でも、パフォーマンスが予想どおりであることを確かめるためにモデルのチェックを実施することをおすすめします。トレーニング データとテストデータが、誤りが含まれる同一のサンプルセットから抽出されている場合、翻訳が意味不明であっても、高スコアが発生する可能性があります。トレーニング セットに含まれていない例をいくつか準備します。カスタムモデルと Google TLLM ベースモデルの結果を比較します。
ベースモデルがすでに優れているため、特にセグメントが短い場合やトレーニング セットのサイズが小さい場合は、モデルがベースと同じ予測をするかもしれません。その場合は、長く複雑なセグメントで試してみてください。セグメントがベースモデルでの予測と同じになった場合、データに問題があることを示している可能性があります。
モデルが犯す可能性のある間違いが心配な場合は、テストセットまたは手順でそのケースが十分にカバーされていることを確認し、モデルを安心して使用できるようにしてください。
次のステップ
- 独自のデータセットとカスタムモデルを作成する方法の詳細については、トレーニング データを準備するをご覧ください。