Sobre o ajuste de preferências para modelos do Gemini

O ajuste de preferências da Gemini Enterprise Agent Platform permite ajustar seus modelos do Gemini com dados de feedback humano.

O ajuste de preferências permite que o modelo aprenda com preferências subjetivas do usuário que são difíceis de definir usando rótulos específicos ou apenas com o ajuste supervisionado de detalhes.

O conjunto de dados de entrada de ajuste de preferências contém exemplos que consistem em um comando e um par de respostas que indicam qual é preferida e qual não é. O modelo aprende a gerar respostas preferidas com maior probabilidade e respostas não preferidas com menor probabilidade.

Para saber como preparar o conjunto de dados, consulte Preparar dados de ajuste de preferências para modelos do Gemini.

Modelos compatíveis

Os seguintes modelos do Gemini são compatíveis com o ajuste de preferências:

Clique para expandir os modelos compatíveis

Limitações

Especificação Valor
Modalidades Texto
Tamanho do arquivo do conjunto de dados de treinamento 1GB
Máximo de tokens de entrada e saída por exemplo de treinamento 131.072
Máximo de tokens de entrada e saída de veiculação Igual ao modelo do Gemini base
Número máximo de exemplos de treinamento em um conjunto de dados de treinamento 10 milhões de exemplos de treinamento somente de texto
Tamanho máximo do conjunto de dados de validação 5.000 exemplos ou 30% do número de exemplos de treinamento, se houver mais de 1.000 exemplos de validação
Tamanho do adaptador Os valores aceitos são 1, 2, 4, 8 e 16

Práticas recomendadas

Antes de aplicar o algoritmo de otimização de preferências ao modelo, recomendamos que você faça o seguinte:

  1. Ajuste o modelo usando o ajuste supervisionado de detalhes nos dados de resposta preferidos. Isso ensina o modelo a gerar respostas preferidas durante a inferência.
  2. Continue o ajuste do checkpoint produzido na etapa 1 usando o ajuste de preferências. Isso ensina o modelo a aumentar a diferença de probabilidade entre respostas preferidas e não preferidas.

Para criar o conjunto de dados de ajuste supervisionado de detalhes, use os pares de comandos e respostas aceitas no conjunto de dados de preferências como comando e destino para o conjunto de dados de ajuste supervisionado de detalhes. Normalmente, uma ou duas épocas de ajuste supervisionado de detalhes são suficientes, embora isso possa mudar com base no tamanho do conjunto de dados e na forma como o conjunto de dados de treinamento está alinhado ao modelo do Gemini inicialmente.

Para usar o ajuste supervisionado de detalhes para ajustar o modelo, siga as etapas em Ajustar modelos do Gemini usando o ajuste supervisionado de detalhes.

Quota

A cota é aplicada ao número de jobs de ajuste simultâneos. Todo projeto tem uma cota padrão para executar pelo menos um job de ajuste. Essa é uma cota global compartilhada por todas as regiões disponíveis e modelos compatíveis. Se você quiser executar mais jobs simultaneamente, você precisa solicitar cota adicional para Global concurrent tuning jobs.

Preços

Os preços do ajuste de preferências do Gemini podem ser encontrados aqui: preços da Gemini Enterprise Agent Platform.

Para fins de preços, o número de tokens de cada exemplo de ajuste é calculado multiplicando o número de tokens no comando por 2 e, em seguida, adicionando o número de tokens de conclusão.

A seguir