Acerca da otimização de preferências para modelos do Gemini

O ajuste de preferências da Vertex AI permite-lhe ajustar os seus modelos Gemini com dados de feedback humano.

O ajuste de preferências permite que o modelo aprenda com as preferências subjetivas dos utilizadores, que são difíceis de definir através de etiquetas específicas ou apenas através do ajuste fino supervisionado.

O conjunto de dados de entrada de ajuste de preferências contém exemplos que consistem num comando e num par de respostas que indicam qual é a preferida e qual não é preferida. O modelo aprende a gerar respostas preferidas com maior probabilidade e respostas não preferidas com menor probabilidade.

Para saber como preparar o conjunto de dados, consulte o artigo Prepare dados de ajuste de preferências para modelos Gemini.

Modelos suportados

Os seguintes modelos do Gemini suportam o ajuste de preferências:

Limitações

Especificação Valor
Modalidades Texto
Tamanho do ficheiro do conjunto de dados de preparação 1GB
Número máximo de tokens de entrada e saída por exemplo de preparação 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Número máximo de exemplos de preparação num conjunto de dados de preparação 10 milhões de exemplos de preparação apenas de texto
Tamanho máximo do conjunto de dados de validação 5000 exemplos ou 30% do número de exemplos de preparação se existirem mais de 1000 exemplos de validação
Tamanho do transformador Os valores suportados são 1, 2, 4, 8 e 16

Práticas recomendadas

Antes de aplicar o algoritmo de otimização de preferências ao seu modelo, recomendamos vivamente que faça o seguinte:

  1. Ajuste o modelo através do ajuste fino supervisionado nos dados de respostas preferidos. Isto ensina o modelo a gerar respostas preferenciais durante a inferência.
  2. Continue a otimização a partir do ponto de verificação produzido no passo 1 através da otimização de preferências. Isto ensina o modelo a aumentar a diferença de probabilidade entre as respostas preferidas e as respostas não preferidas.

Para criar o conjunto de dados de ajuste fino supervisionado, use os pares de comandos e respostas aceites no seu conjunto de dados de preferências como comando e destino para o seu conjunto de dados de ajuste fino supervisionado. Normalmente, uma ou duas épocas de ajuste preciso supervisionado devem ser suficientes, embora isto possa mudar com base no tamanho do conjunto de dados e no grau de alinhamento do conjunto de dados de treino com o modelo Gemini inicialmente.

Para usar a otimização precisa supervisionada para otimizar o modelo, siga os passos em Otimize os modelos Gemini através da otimização precisa supervisionada.

Quota

A quota é aplicada ao número de tarefas de ajuste simultâneas. Todos os projetos incluem uma quota predefinida para executar, pelo menos, um trabalho de otimização. Esta é uma quota global, partilhada em todas as regiões disponíveis e modelos suportados. Se quiser executar mais tarefas em simultâneo, tem de pedir uma quota adicional para Global concurrent tuning jobs.

Preços

Pode encontrar os preços da otimização de preferências do Gemini aqui: preços do Vertex AI.

Para fins de preços, o número de tokens de cada exemplo de ajuste é calculado multiplicando o número de tokens no comando por 2 e, em seguida, adicionando o número de tokens de conclusão.

O que se segue?