El ajuste de preferencias de Gemini Enterprise Agent Platform te permite ajustar tus modelos de Gemini con datos de comentarios humanos.
El ajuste de preferencias permite que el modelo aprenda de las preferencias subjetivas de los usuarios que son difíciles de definir con etiquetas específicas o solo con el ajuste supervisado.
El conjunto de datos de entrada de ajuste de preferencias contiene ejemplos que constan de un prompt y un par de respuestas que indican cuál se prefiere y cuál no. El modelo aprende a generar respuestas preferidas con mayor probabilidad y respuestas no preferidas con menor probabilidad.
Para obtener información sobre cómo preparar el conjunto de datos, consulta Prepara datos de ajuste de preferencias para los modelos de Gemini.
Modelos compatibles
Los siguientes modelos de Gemini admiten el ajuste de preferencias:
Haz clic para expandir los modelos compatibles
Limitaciones
| Especificación | Valor |
|---|---|
| Modalidades | Texto |
| Tamaño del archivo del conjunto de datos de entrenamiento | 1GB |
| Cantidad máxima de tokens de entrada y salida por ejemplo de entrenamiento | 131,072 |
| Cantidad máxima de tokens de entrada y salida de entrega | Igual que el modelo de Gemini base |
| Cantidad máxima de ejemplos de entrenamiento en un conjunto de datos de entrenamiento | 10 millones de ejemplos de entrenamiento de solo texto |
| Tamaño máximo del conjunto de datos de validación | 5,000 ejemplos o el 30% de la cantidad de ejemplos de entrenamiento si hay más de 1,000 ejemplos de validación |
| Tamaño del adaptador | Los valores admitidos son 1, 2, 4, 8 y 16. |
Prácticas recomendadas
Antes de aplicar el algoritmo de optimización de preferencias a tu modelo, te recomendamos que hagas lo siguiente:
- Ajusta el modelo con el ajuste supervisado en los datos de respuesta preferidos. Esto le enseña al modelo a generar respuestas preferidas durante la inferencia.
- Continúa con el ajuste desde el punto de control producido en el paso 1 con el ajuste de preferencias. Esto le enseña al modelo a aumentar la brecha de probabilidad entre las respuestas preferidas y no preferidas.
Para crear el conjunto de datos de ajuste supervisado, usa los pares de prompts y respuestas aceptadas en tu conjunto de datos de preferencias como prompt y destino para tu conjunto de datos de ajuste supervisado. Por lo general, una o dos épocas de ajuste supervisado deberían ser suficientes, aunque esto puede cambiar según el tamaño del conjunto de datos y el nivel de alineación de tu conjunto de datos de entrenamiento con el modelo de Gemini inicialmente.
Para usar el ajuste supervisado para ajustar el modelo, sigue los pasos que se indican en Ajusta los modelos de Gemini con el ajuste supervisado.
Quota
La cuota se aplica a la cantidad de trabajos de ajuste simultáneos. Cada proyecto viene con una cuota predeterminada para ejecutar al menos un trabajo de ajuste. Esta es una cuota global, que se comparte en todas las regiones y modelos compatibles disponibles. Si necesitas ejecutar
más trabajos de forma simultánea, debes solicitar una cuota adicional para
Global concurrent tuning jobs.
Precios
Los precios del ajuste de preferencias de Gemini se pueden encontrar aquí: Precios de Gemini Enterprise Agent Platform.
Para determinar los precios, la cantidad de tokens para cada ejemplo de ajuste se calcula multiplicando la cantidad de tokens en el prompt por 2 y, luego, agregando la cantidad de tokens de finalización.
¿Qué sigue?
- Prepara un conjunto de datos de ajuste de preferencias.
- Obtén información para implementar un modelo de Gemini ajustado.