Acerca del ajuste de preferencias de los modelos de Gemini

El ajuste de preferencias de Vertex AI te permite ajustar tus modelos de Gemini con datos de comentarios de usuarios.

El ajuste de preferencias permite al modelo aprender de las preferencias subjetivas de los usuarios, que son difíciles de definir mediante etiquetas específicas o solo con el ajuste fino supervisado.

El conjunto de datos de entrada de ajuste de preferencias contiene ejemplos que constan de una petición y un par de respuestas que indican cuál es la preferida y cuál no. El modelo aprende a generar respuestas preferidas con una probabilidad más alta y respuestas no preferidas con una probabilidad más baja.

Para saber cómo preparar el conjunto de datos, consulta el artículo Preparar datos de ajuste de preferencias para los modelos de Gemini.

Modelos admitidos

Los siguientes modelos de Gemini admiten el ajuste de preferencias:

Limitaciones

Especificaciones	Valor
Modalidades	Texto
Tamaño del archivo del conjunto de datos de entrenamiento	1 GB
Número máximo de tokens de entrada y salida por ejemplo de entrenamiento	131.072
Número máximo de tokens de entrada y salida	Igual que el modelo base de Gemini
Número máximo de ejemplos de entrenamiento en un conjunto de datos de entrenamiento	10 millones de ejemplos de entrenamiento de solo texto
Tamaño máximo del conjunto de datos de validación	5000 ejemplos o el 30% del número de ejemplos de entrenamiento si hay más de 1000 ejemplos de validación
Tamaño del adaptador	Los valores admitidos son 1, 2, 4, 8 y 16.

Prácticas recomendadas

Antes de aplicar el algoritmo de optimización de preferencias a tu modelo, te recomendamos que hagas lo siguiente:

Ajusta el modelo mediante el ajuste de precisión supervisado con los datos de respuesta preferidos. De esta forma, el modelo aprende a generar respuestas preferidas durante la inferencia.
Continúa ajustando desde el punto de control generado en el paso 1 mediante el ajuste de preferencias. De esta forma, se enseña al modelo a aumentar la diferencia de probabilidad entre las respuestas preferidas y las no preferidas.

Para crear el conjunto de datos de ajuste fino supervisado, usa los pares de peticiones y respuestas aceptadas de tu conjunto de datos de preferencias como peticiones y objetivos de tu conjunto de datos de ajuste fino supervisado. Por lo general, una o dos épocas de ajuste fino supervisado deberían ser suficientes, aunque esto puede cambiar en función del tamaño del conjunto de datos y de lo alineado que esté tu conjunto de datos de entrenamiento con el modelo de Gemini inicialmente.

Para usar el ajuste fino supervisado y ajustar el modelo, sigue los pasos que se indican en Ajustar modelos de Gemini con el ajuste fino supervisado.

Cuota

La cuota se aplica al número de tareas de ajuste simultáneas. Todos los proyectos tienen una cuota predeterminada para ejecutar al menos un trabajo de ajuste. Se trata de una cuota global que se comparte entre todas las regiones disponibles y los modelos admitidos. Si quieres ejecutar más trabajos simultáneamente, debes solicitar cuota adicional para Global concurrent tuning jobs.

Precios

Los precios de la optimización de preferencias de Gemini se pueden consultar en la página Precios de Vertex AI.

A la hora de establecer los precios, el número de tokens de cada ejemplo de ajuste se calcula multiplicando el número de tokens de la petición por 2 y, a continuación, sumando el número de tokens de la finalización.