Gemini 模型的偏好调优简介

借助 Vertex AI 偏好调优,您可以使用人工反馈数据来调优 Gemini 模型。

偏好调优使模型能够从主观用户偏好中学习,而这些偏好很难仅通过特定标签或监督式微调来定义。

偏好调整输入数据集包含一些示例,每个示例都包含一个提示和一对回答,用于指明哪个回答是首选回答,哪个回答是不受欢迎的回答。模型会学习以更高的概率生成首选回答,并以更低的概率生成非首选回答。

如需了解如何准备数据集,请参阅为 Gemini 模型准备偏好调优数据

支持的模型

以下 Gemini 模型支持偏好调优:

限制

规范
模态 文本
训练数据集的文件大小 1GB
每个训练示例的输入和输出 token 数上限 131,072
输入和输出传送 token 数上限 与基础 Gemini 模型相同
训练数据集中的训练样本数量上限 100 万个纯文本训练样本

最佳做法

在将偏好优化算法应用于模型之前,我们强烈建议您执行以下操作:

  1. 使用首选回答数据通过监督式微调对模型进行调优。这会教导模型在推理期间生成首选回答。
  2. 使用偏好设置调整功能,继续调整第 1 步生成的检查点。这会教模型增大首选回答与非首选回答之间的似然差距。

如需创建监督式微调数据集,请使用偏好数据集中的提示和已接受的回答对作为监督式微调数据集的提示和目标。通常,一个或两个周期的监督式微调就足够了,不过这可能会因数据集大小以及训练数据集与 Gemini 模型最初的对齐程度而异。

如需使用监督式微调来调整模型,请按照使用监督式微调来调整 Gemini 模型中的步骤操作。

Quota

系统对并发调优作业的数量实施配额。每个项目都配有运行至少一个调优作业的默认配额。这是一个全球配额,所有可用区域和支持的模型共用这一配额。如果要同时运行更多作业,则需要为 Global concurrent tuning jobs 申请更多配额

价格

您可以在此处查看 Gemini 偏好调优的价格:Vertex AI 价格

为了便于计费,每个调优示例的 token 数的计算方式如下:将提示中的 token 数乘以 2,然后加上补全 token 数。

后续步骤