O ajuste de preferências da Gemini Enterprise Agent Platform permite ajustar seus modelos do Gemini com dados de feedback humano.
O ajuste de preferências permite que o modelo aprenda com preferências subjetivas do usuário que são difíceis de definir usando rótulos específicos ou apenas com o ajuste supervisionado de detalhes.
O conjunto de dados de entrada de ajuste de preferências contém exemplos que consistem em um comando e um par de respostas que indicam qual é preferida e qual não é. O modelo aprende a gerar respostas preferidas com maior probabilidade e respostas não preferidas com menor probabilidade.
Para saber como preparar o conjunto de dados, consulte Preparar dados de ajuste de preferências para modelos do Gemini.
Modelos compatíveis
Os seguintes modelos do Gemini são compatíveis com o ajuste de preferências:
Clique para expandir os modelos compatíveis
Limitações
| Especificação | Valor |
|---|---|
| Modalidades | Texto |
| Tamanho do arquivo do conjunto de dados de treinamento | 1GB |
| Máximo de tokens de entrada e saída por exemplo de treinamento | 131.072 |
| Máximo de tokens de entrada e saída de veiculação | Igual ao modelo do Gemini base |
| Número máximo de exemplos de treinamento em um conjunto de dados de treinamento | 10 milhões de exemplos de treinamento somente de texto |
| Tamanho máximo do conjunto de dados de validação | 5.000 exemplos ou 30% do número de exemplos de treinamento, se houver mais de 1.000 exemplos de validação |
| Tamanho do adaptador | Os valores aceitos são 1, 2, 4, 8 e 16 |
Práticas recomendadas
Antes de aplicar o algoritmo de otimização de preferências ao modelo, recomendamos que você faça o seguinte:
- Ajuste o modelo usando o ajuste supervisionado de detalhes nos dados de resposta preferidos. Isso ensina o modelo a gerar respostas preferidas durante a inferência.
- Continue o ajuste do checkpoint produzido na etapa 1 usando o ajuste de preferências. Isso ensina o modelo a aumentar a diferença de probabilidade entre respostas preferidas e não preferidas.
Para criar o conjunto de dados de ajuste supervisionado de detalhes, use os pares de comandos e respostas aceitas no conjunto de dados de preferências como comando e destino para o conjunto de dados de ajuste supervisionado de detalhes. Normalmente, uma ou duas épocas de ajuste supervisionado de detalhes são suficientes, embora isso possa mudar com base no tamanho do conjunto de dados e na forma como o conjunto de dados de treinamento está alinhado ao modelo do Gemini inicialmente.
Para usar o ajuste supervisionado de detalhes para ajustar o modelo, siga as etapas em Ajustar modelos do Gemini usando o ajuste supervisionado de detalhes.
Quota
A cota é aplicada ao número de jobs de ajuste simultâneos. Todo projeto tem
uma cota padrão para executar pelo menos um job de ajuste. Essa é uma cota global compartilhada por todas as regiões disponíveis e modelos compatíveis. Se você quiser executar
mais jobs simultaneamente, você precisa solicitar cota adicional para
Global concurrent tuning jobs.
Preços
Os preços do ajuste de preferências do Gemini podem ser encontrados aqui: preços da Gemini Enterprise Agent Platform.
Para fins de preços, o número de tokens de cada exemplo de ajuste é calculado multiplicando o número de tokens no comando por 2 e, em seguida, adicionando o número de tokens de conclusão.
A seguir
- Preparar um conjunto de dados de ajuste de preferências .
- Saiba como implantar um modelo do Gemini ajustado.