Gemini 模型的偏好调优简介

借助 Vertex AI 偏好调优，您可以使用人工反馈数据来调优 Gemini 模型。

偏好调优使模型能够从主观用户偏好中学习，而这些偏好很难仅通过特定标签或监督式微调来定义。

偏好调整输入数据集包含一些示例，每个示例都包含一个提示和一对回答，用于指明哪个回答是首选回答，哪个回答是不受欢迎的回答。模型会学习以更高的概率生成首选回答，并以更低的概率生成非首选回答。

支持的模型

以下 Gemini 模型支持偏好调优：

在将偏好优化算法应用于模型之前，我们强烈建议您执行以下操作：

如需创建监督式微调数据集，请使用偏好数据集中的提示和已接受的回答对作为监督式微调数据集的提示和目标。通常，一个或两个周期的监督式微调就足够了，不过这可能会因数据集大小以及训练数据集与 Gemini 模型最初的对齐程度而异。

如需使用监督式微调来调整模型，请按照使用监督式微调来调整 Gemini 模型中的步骤操作。

系统对并发调优作业的数量实施配额。每个项目都配有运行至少一个调优作业的默认配额。这是一个全球配额，所有可用区域和支持的模型共用这一配额。如果要同时运行更多作业，则需要为 Global concurrent tuning jobs 申请更多配额。

您可以在此处查看 Gemini 偏好调优的价格：Vertex AI 价格。

为了便于计费，每个调优示例的 token 数的计算方式如下：将提示中的 token 数乘以 2，然后加上补全 token 数。