Com o ajuste de preferências da Vertex AI, é possível ajustar seus modelos do Gemini com dados de feedback humano.
Com o ajuste de preferências, o modelo aprende com preferências subjetivas do usuário que são difíceis de definir usando rótulos específicos ou apenas com ajuste supervisionado.
O conjunto de dados de entrada de ajuste de preferências contém exemplos que consistem em um comando e um par de respostas indicando qual é preferida e qual não é. O modelo aprende a gerar respostas preferidas com maior probabilidade e respostas não preferidas com menor probabilidade.
Para saber como preparar o conjunto de dados, consulte Preparar dados de ajuste de preferências para modelos do Gemini.
Modelos compatíveis
Os seguintes modelos do Gemini são compatíveis com o ajuste de preferências:
Limitações
| Especificação | Valor |
|---|---|
| Modalidades | Texto |
| Tamanho do arquivo do conjunto de dados de treinamento | 1 GB |
| Máximo de tokens de entrada e saída por exemplo de treinamento | 131.072 |
| Máximo de tokens de entrada e saída | Igual ao modelo de base do Gemini |
| Número máximo de exemplos de treinamento em um conjunto de dados de treinamento | 10 milhões de exemplos de treinamento somente de texto |
| Tamanho máximo do conjunto de dados de validação | 5.000 exemplos ou 30% do número de exemplos de treinamento se houver mais de 1.000 exemplos de validação |
| Tamanho do adaptador | Os valores aceitos são 1, 2, 4, 8 e 16. |
Práticas recomendadas
Antes de aplicar o algoritmo de otimização de preferências ao seu modelo, recomendamos que você faça o seguinte:
- Ajuste o modelo usando o ajuste supervisionado nos dados de resposta preferida. Isso ensina o modelo a gerar respostas preferenciais durante a inferência.
- Continue o ajuste do ponto de verificação produzido na etapa 1 usando o ajuste de preferências. Isso ensina o modelo a aumentar a diferença de probabilidade entre as respostas preferidas e não preferidas.
Para criar o conjunto de dados de ajuste de detalhes supervisionado, use os pares de solicitação e resposta aceita no conjunto de dados de preferência como solicitação e destino para o conjunto de dados de ajuste de detalhes supervisionado. Normalmente, um ou dois períodos de ajuste supervisionado são suficientes, mas isso pode mudar de acordo com o tamanho do conjunto de dados e o alinhamento do conjunto de dados de treinamento com o modelo do Gemini inicialmente.
Para usar o ajuste supervisionado e ajustar o modelo, siga as etapas em Ajustar modelos do Gemini usando ajuste supervisionado.
Cota
A cota é aplicada ao número de jobs de ajuste simultâneos. Todo projeto tem
uma cota padrão para executar pelo menos um job de ajuste. Essa é uma cota global
compartilhada por todas as regiões disponíveis e modelos compatíveis. Se você quiser executar
mais jobs simultaneamente, solicite uma cota extra para
Global concurrent tuning jobs.
Preços
Confira os preços para o ajuste de preferências do Gemini aqui: Preços da Vertex AI.
Para fins de preços, o número de tokens de cada exemplo de ajuste é calculado multiplicando o número de tokens no comando por 2 e adicionando o número de tokens de conclusão.
A seguir
- Prepare um conjunto de dados de ajuste de preferências.
- Saiba como implantar um modelo do Gemini ajustado.