Sobre o ajuste de preferências para modelos do Gemini

Com o ajuste de preferências da Vertex AI, é possível ajustar seus modelos do Gemini com dados de feedback humano.

Com o ajuste de preferências, o modelo aprende com preferências subjetivas do usuário que são difíceis de definir usando rótulos específicos ou apenas com ajuste supervisionado.

O conjunto de dados de entrada de ajuste de preferências contém exemplos que consistem em um comando e um par de respostas indicando qual é preferida e qual não é. O modelo aprende a gerar respostas preferidas com maior probabilidade e respostas não preferidas com menor probabilidade.

Para saber como preparar o conjunto de dados, consulte Preparar dados de ajuste de preferências para modelos do Gemini.

Modelos compatíveis

Os seguintes modelos do Gemini são compatíveis com o ajuste de preferências:

Limitações

Especificação Valor
Modalidades Texto
Tamanho do arquivo do conjunto de dados de treinamento 1 GB
Máximo de tokens de entrada e saída por exemplo de treinamento 131.072
Máximo de tokens de entrada e saída Igual ao modelo de base do Gemini
Número máximo de exemplos de treinamento em um conjunto de dados de treinamento 10 milhões de exemplos de treinamento somente de texto
Tamanho máximo do conjunto de dados de validação 5.000 exemplos ou 30% do número de exemplos de treinamento se houver mais de 1.000 exemplos de validação
Tamanho do adaptador Os valores aceitos são 1, 2, 4, 8 e 16.

Práticas recomendadas

Antes de aplicar o algoritmo de otimização de preferências ao seu modelo, recomendamos que você faça o seguinte:

  1. Ajuste o modelo usando o ajuste supervisionado nos dados de resposta preferida. Isso ensina o modelo a gerar respostas preferenciais durante a inferência.
  2. Continue o ajuste do ponto de verificação produzido na etapa 1 usando o ajuste de preferências. Isso ensina o modelo a aumentar a diferença de probabilidade entre as respostas preferidas e não preferidas.

Para criar o conjunto de dados de ajuste de detalhes supervisionado, use os pares de solicitação e resposta aceita no conjunto de dados de preferência como solicitação e destino para o conjunto de dados de ajuste de detalhes supervisionado. Normalmente, um ou dois períodos de ajuste supervisionado são suficientes, mas isso pode mudar de acordo com o tamanho do conjunto de dados e o alinhamento do conjunto de dados de treinamento com o modelo do Gemini inicialmente.

Para usar o ajuste supervisionado e ajustar o modelo, siga as etapas em Ajustar modelos do Gemini usando ajuste supervisionado.

Cota

A cota é aplicada ao número de jobs de ajuste simultâneos. Todo projeto tem uma cota padrão para executar pelo menos um job de ajuste. Essa é uma cota global compartilhada por todas as regiões disponíveis e modelos compatíveis. Se você quiser executar mais jobs simultaneamente, solicite uma cota extra para Global concurrent tuning jobs.

Preços

Confira os preços para o ajuste de preferências do Gemini aqui: Preços da Vertex AI.

Para fins de preços, o número de tokens de cada exemplo de ajuste é calculado multiplicando o número de tokens no comando por 2 e adicionando o número de tokens de conclusão.

A seguir