Acerca del ajuste de preferencias para los modelos de Gemini

El ajuste de preferencias de Vertex AI te permite ajustar tus modelos de Gemini con datos de comentarios humanos.

El ajuste de preferencias permite que el modelo aprenda de las preferencias subjetivas del usuario que son difíciles de definir con etiquetas específicas o solo a través del ajuste fino supervisado.

El conjunto de datos de entrada del ajuste de preferencias contiene ejemplos que constan de una instrucción y un par de respuestas que indican cuál es la preferida y cuál no. El modelo aprende a generar respuestas preferidas con mayor probabilidad y respuestas no preferidas con menor probabilidad.

Para obtener información sobre cómo preparar el conjunto de datos, consulta Prepara datos de ajuste de preferencias para los modelos de Gemini.

Modelos compatibles

Los siguientes modelos de Gemini admiten el ajuste de preferencias:

Limitaciones

Especificación Valor
Modalidades Texto
Tamaño del archivo del conjunto de datos de entrenamiento 1 GB
Cantidad máxima de tokens de entrada y salida por ejemplo de entrenamiento 131,072
Cantidad máxima de tokens de entrada y salida para la entrega Es igual que el modelo de Gemini básico.
Cantidad máxima de ejemplos de entrenamiento en un conjunto de datos de entrenamiento 10 millones de ejemplos de entrenamiento solo con texto
Tamaño máximo del conjunto de datos de validación 5,000 ejemplos o el 30% de la cantidad de ejemplos de entrenamiento si hay más de 1,000 ejemplos de validación
Tamaño del adaptador Los valores admitidos son 1, 2, 4, 8 y 16.

Prácticas recomendadas

Antes de aplicar el algoritmo de optimización de preferencias a tu modelo, te recomendamos que hagas lo siguiente:

  1. Ajusta el modelo con el ajuste supervisado en los datos de respuesta preferidos. Esto le enseña al modelo a generar respuestas preferidas durante la inferencia.
  2. Continue tuning desde el punto de control producido en el paso 1 con el ajuste de preferencias. Esto le enseña al modelo a aumentar la brecha de probabilidad entre las respuestas preferidas y las no preferidas.

Para crear el conjunto de datos de ajuste supervisado, usa los pares de mensajes y respuestas aceptadas en tu conjunto de datos de preferencias como mensaje y objetivo para tu conjunto de datos de ajuste supervisado. Por lo general, uno o dos ciclos de entrenamiento con ajuste fino supervisado deberían ser suficientes, aunque esto puede cambiar según el tamaño del conjunto de datos y el grado de alineación inicial de tu conjunto de datos de entrenamiento con el modelo de Gemini.

Para usar el ajuste supervisado y ajustar el modelo, sigue los pasos que se indican en Ajusta los modelos de Gemini con el ajuste supervisado.

Cuota

La cuota se aplica a la cantidad de trabajos de ajuste simultáneos. Cada proyecto viene con una cuota predeterminada para ejecutar al menos un trabajo de ajuste. Esta es una cuota global, que se comparte en todas las regiones y modelos compatibles disponibles. Si necesitas ejecutar más trabajos de forma simultánea, debes solicitar una cuota adicional para Global concurrent tuning jobs.

Precios

Puedes encontrar los precios para el ajuste de preferencias de Gemini aquí: Precios de Vertex AI.

Para determinar los precios, la cantidad de tokens de cada ejemplo de ajuste se calcula multiplicando la cantidad de tokens de la instrucción por 2 y, luego, sumando la cantidad de tokens de la respuesta.

¿Qué sigue?