自定义 TLLM 模型

使用 Cloud Translation 高级版 API 自定义 Google Translation LLM (TLLM) 模型,而无需编写代码。根据特定领域的内容量身打造自定义模型,与默认的 Google TLLM 模型相比,可生成更准确的翻译。TLLM 模型涵盖大量语言对,并且非常适合通用文本。自定义模型擅长处理特定领域的词汇。如果您运营的专业报告服务有机会扩展到新的国家/地区,那么您可以创建并优化自定义模型来实时完成这项工作,而无需聘请专家。

数据准备

如需训练自定义模型,请提供源语言和目标语言中匹配的句段对。这些是字词或短语对,在您要翻译的源语言和目标语言中具有相同的含义。句对的含义越接近,模型的效果就会越好。在整合匹配的细分受众群对的数据集时,应先确定用例:

  • 您想要实现什么结果?

  • 为了实现该结果,哪些类型的句段需要正确翻译?TLLM 模型是否可以直接实现?

  • 人工翻译是否能够以让您满意的方式翻译这些关键句段?如果翻译任务含糊不清,甚至一位精通这两种语言的人也难以提供令人满意的翻译,那么 TLLM 模型可能与自定义模型的表现相当。

  • 哪些类型的示例最能反映您的系统需要翻译的细分对类型和范围?

将数据与您的问题领域进行匹配

训练自定义翻译模型,以适应特定语言领域。请确保您的句对尽可能地覆盖您所在行业或关注领域的词汇、用法和语法惯例。您可以查找包含要完成的翻译任务中涵盖的典型用法的文档,并确保您的双语词组的含义尽可能匹配。不同语言在词汇或语法方面无法完美对应,但是,请尝试获取您预期会用到的各种语义。您构建自定义模型的基础是一个在通用翻译方面已经做得非常出色的模型。您的示例是调整自定义模型的最后一步,因此请确保它们相关且具有代表性。

捕获语言空间的多样性

不要认为人们对某个特定领域的描述足够一致,只要有少数翻译人员翻译的少量文本样本,应该足以训练一个适用于其他任何人描述该领域的模型。每位作者和译者都会为自己撰写的文字赋予独特的风格,因此,包含由大量作者和译者提供的句对的训练数据集更有可能为您提供一个良好的模型,该模型对于翻译来自不同组织的资料非常有用。此外,还要考虑句段长度和结构的多样性:如果一个数据集中的所有句段长度都相同或具有相似的语法结构,则该数据集将无法构建一个能够覆盖所有可能性的模型。

寻找数据

确定了所需的数据后,您需要找到一种方法来获取数据。考虑组织收集的所有数据。此时您可能会发现,自己已经在收集训练翻译模型所需的数据了。如果没有收集到所需的数据,您可以手动获取或将这项任务外包给第三方。

让人工校对参与其中

尽量确保由精通两种语言的人员验证句段对是否匹配,以及是否能够代表可读性良好、含义准确的翻译。即使是常见的错误,比如训练数据电子表格中的行没有对齐,也有可能导致翻译结果完全偏离原义。Cloud Translation 高级版 API 需要高质量的数据才能获得可用的模型。

使用细分对时,请注意公平性

支持 Google 机器学习产品的核心原则是以人为本的机器学习,这种方法强调Responsible AI 实践,包括公平性。机器学习公平性的目标是了解并防止在算法系统或算法辅助的决策制定过程中,因种族、收入、性取向、宗教、适用性别以及其他历来与歧视和边缘化相关的特征而对人们造成不公正或有偏见的对待。

清理杂乱的数据

您在预处理数据时可能会出错,这可能会使自定义模型感到困惑。请注意以下可以修复的数据问题:

  • 移除重复的源句段,尤其是在这些句段具有不同的目标语种译文时,确保 Cloud Translation 高级版 API 使用您偏好的翻译。
  • 将原文句段与正确的目标语种句段对齐。
  • 将片段与指定语言匹配。(例如:在中文数据集中仅包含中文句段。)
  • 对于包含混合语言的目标语种句段,检查未翻译的字词是否有意保留未译。如果在目标语种句段中不小心加入了未翻译的字词,会给数据造成干扰,从而影响模型质量。
  • 修正包含排字或语法错误的句段。
  • 移除不可翻译的内容,例如占位符标记和 HTML 标记。 无法翻译的内容可能会导致出现标点符号错误。
  • 请勿添加将一般事物替换为特定名词的细分对。例如,将“总统”这类一般性术语翻译为“JFK”。您应该移除这些翻译,或将特定名词更改为普通名词。
  • 移除训练集和测试集中存在的重复句段。
  • 使用一致的大小写,这会影响模型学习的方式,例如区分标题与正文文本的方式。

处理数据

存在以下限制:

  • 输入和输出 token 数上限:
    • 服务:1,000(约 4,000 个字符)
  • 验证数据集大小:1,024 个样本
  • 训练数据集文件大小:对于 JSONL 不超过 1 GB
  • 训练示例长度:1,000(约 4,000 个字符)
  • 适配器大小:
    • Translation LLM V2:支持的值仅为 4。使用任何其他值(例如 1 或 8)将导致失败。

调试

调试自定义模型主要是调试数据,而非模型本身。如果模型未按您的预期进行翻译,请检查数据,看看有哪些方面可以改进。

测试

即使评估得分看起来还不错,也要检查模型,确保其性能符合预期。如果您的训练数据和测试数据来自同一个错误的样本集,则即使翻译完全偏离原义,其得分也可能非常高!准备一些不在训练集中的示例。将自定义模型的结果与 Google TLLM 基本模型的结果进行比较。

您可能会发现,自己的模型与基本模型生成的预测相同,特别是对于短句段或在训练集较小的情况下,因为基本模型已经很出色。在这种情况下,请尝试更长或更复杂的句段。如果您的模型返回的所有句段都与基本模型的预测相同,则可能表示数据存在问题。

如果您担心模型会犯错,请确保您的测试集或测试程序充分涵盖了相应情况,以便您放心地使用模型。

后续步骤

  • 如需详细了解如何创建自己的数据集和自定义模型,请参阅准备训练数据