O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Sobre ajuste de detalhes supervisionado para modelos do Gemini

O ajuste supervisionado é uma boa opção quando você tem uma tarefa bem definida com dados rotulados disponíveis. Ele é particularmente eficaz para aplicativos específicos de domínio em que a linguagem ou o conteúdo é significativamente diferente dos dados para os quais o modelo grande foi originalmente treinado. É possível ajustar tipos de dados de texto, imagem, áudio, vídeo e documento. Também é possível criar aplicativos e agentes baseados no Gemini que podem interagir com informações e serviços em tempo real, como bancos de dados, sistemas de gestão de relacionamento com o cliente e repositórios de documentos.

O ajuste supervisionado adapta o comportamento do modelo com um conjunto de dados rotulado. Esse processo ajusta os pesos do modelo para minimizar a diferença entre as previsões e os rótulos reais. Por exemplo, ele pode melhorar o desempenho do modelo para os seguintes tipos de tarefas:

Classificação
Resumo
Respostas a perguntas extrativas
Chat

Para uma discussão sobre os principais casos de uso de ajuste, confira a postagem do blog Centenas de organizações estão ajustando os modelos do Gemini (link em inglês). Confira os casos de uso favoritos delas use cases.

Para saber mais, consulte Quando usar o ajuste supervisionado para Gemini.

Modelos compatíveis

Os seguintes modelos do Gemini oferecem suporte ao ajuste supervisionado:

Clique para expandir os modelos compatíveis

Limitações

O ajuste supervisionado não é um serviço coberto e está excluído do SLO de qualquer contrato de nível de serviço.

A tabela a seguir mostra as limitações dos conjuntos de dados de ajuste supervisionado:

Gemini 3.5 Flash

Especificação	Valor
Máximo de tokens de entrada e saída por exemplo de treinamento	131.072
Máximo de tokens de entrada e saída de serviço	O mesmo que o modelo do Gemini base
Número máximo de exemplos em um conjunto de dados de validação	5.000 exemplos ou 30% do número de exemplos de treinamento, se houver mais de 1.000 exemplos de validação
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	10 milhões de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4, 8 e 16
Endpoint com suporte para ajuste de modelo	`us-central1` e `europe-west4`
Endpoint com suporte para serviço de modelo ajustado	Endpoints multirregionais `us` e `eu` somente
Suporte à CMEK	Indisponível

Gemini 3.1 Flash-Lite

Especificação	Valor
Máximo de tokens de entrada e saída por exemplo de treinamento	131.072
Máximo de tokens de entrada e saída de serviço	O mesmo que o modelo do Gemini base
Número máximo de exemplos em um conjunto de dados de validação	5.000 exemplos ou 30% do número de exemplos de treinamento, se houver mais de 1.000 exemplos de validação
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	10 milhões de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4, 8 e 16
Endpoint com suporte para ajuste de modelo	`us-central1` e `europe-west4`
Endpoint com suporte para serviço de modelo ajustado	Endpoints multirregionais `us` e `eu` somente
Suporte à CMEK	Indisponível

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Especificação	Valor
Máximo de tokens de entrada e saída por exemplo de treinamento	131.072
Máximo de tokens de entrada e saída de serviço	O mesmo que o modelo do Gemini base
Número máximo de exemplos em um conjunto de dados de validação	5.000 exemplos ou 30% do número de exemplos de treinamento, se houver mais de 1.000 exemplos de validação
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	10 milhões de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4, 8 e 16

Gemini 2.5 Pro

Especificação	Valor
Máximo de tokens de treinamento de entrada e saída	131.072
Máximo de tokens de entrada e saída de serviço	O mesmo que o modelo do Gemini base
Tamanho máximo do conjunto de dados de validação	5.000 exemplos ou 30% do número de exemplos de treinamento, se houver mais de 1.000 exemplos de validação
Tamanho máximo do arquivo do conjunto de dados de treinamento	1 GB para JSONL
Tamanho máximo do conjunto de dados de treinamento	10 milhões de exemplos somente de texto ou 300 mil exemplos multimodais
Tamanho do adaptador	Os valores aceitos são 1, 2, 4 e 8

Problemas conhecidos

A aplicação da geração controlada ao enviar solicitações de inferência para modelos do Gemini ajustados pode resultar em uma qualidade de modelo reduzida devido ao desalinhamento de dados durante o ajuste e o tempo de inferência. Durante o ajuste, a geração controlada não é aplicada, então o modelo ajustado não consegue processar bem a geração controlada no momento da inferência. O ajuste supervisionado personaliza o modelo de maneira eficaz para gerar saída estruturada. Portanto, não é necessário aplicar a geração controlada ao fazer solicitações de inferência em modelos ajustados.

Casos de uso do ajuste supervisionado

Os modelos de fundação funcionam bem quando a saída ou a tarefa esperada pode ser definida de maneira clara e concisa em um prompt e ele produza a saída esperada de maneira consistente. Se você quiser que um modelo aprenda algo nichado ou específico que se desloque dos padrões gerais, convém ajustar esse modelo. Por exemplo, é possível usar o ajuste de modelo para ensinar o modelo a seguir:

Estruturas ou formatos específicos para gerar resultados.
Comportamentos específicos, como quando fornecer uma resposta final ou detalhada.
Resultados personalizados específicos para tipos específicos de entradas.

Os exemplos a seguir são casos de uso difíceis de capturar apenas com instruções imediatas:

Classificação: a resposta esperada é uma palavra ou frase específica.

Prompt: Classifique o texto a seguir em uma das seguintes classes: [business, Entertainment]. Texto: Diversifique seu portfólio de investimentos

Resposta: negócio

Ajustar o modelo pode impedir que ele gere respostas detalhadas.

Resumo: o resumo segue um formato específico. Por exemplo, talvez seja necessário remover informações de identificação pessoal (PII, na sigla em inglês) em um resumo do chat.

Prompt: Resumir: Jessica: Parece ótimo! A gente se encontra na Times Square! Alexander: Até às 10h!

Resposta: #Person1 e #Person2 concordam em se encontrar na Times Square às 10h.

Essa formatação de substituição dos nomes dos falantes por #Person1 e #Person2 é difícil de descrever, e o modelo de fundação pode não produzir naturalmente essa resposta.

Resposta de pergunta extrativa: a pergunta é sobre um contexto e a resposta é uma substring do contexto.

Prompt: Contexto: há evidências de que houve mudanças significativas na vegetação da floresta amazônica nos últimos 21.000 anos, pelo Último máximo glacial (UMG) e o período de degelo posterior. Pergunta: o que significa UMG?

Resposta: Último máximo glacial

A resposta "Último máximo glacial" é uma frase específica do contexto.

Chat: você precisa personalizar a resposta do modelo para seguir um perfil, um papel ou um personagem.

Prompt: Usuário: como está o tempo hoje?

Resposta: Assistente: como lojista virtual da organização de exemplo, só posso ajudar você com as compras e o frete.

Também é possível ajustar um modelo nas seguintes situações:

As solicitações não produzem os resultados esperados com consistência suficiente.
A tarefa é muito complicada de ser definida em um prompt. Por exemplo, você quer que o modelo faça clonagem de comportamento para um comportamento difícil de articular em um prompt.
Você tem uma intuição complexa sobre uma tarefa que é difícil de formalizar em um prompt.
Você quer reduzir o tamanho do contexto removendo os exemplos com poucos exemplos (few-shot).

Configurar uma região do job de ajuste

Os dados do usuário, como o conjunto de dados transformado e o modelo ajustado, são armazenados na região do job de ajuste. Durante o ajuste, a computação pode ser descarregada para outras regiões US ou EU para aceleradores disponíveis. Esse processo é transparente para os usuários.

Se você usar o SDK da Vertex AI, poderá especificar a região na inicialização. Por exemplo:
```
import vertexai
vertexai.init(project='myproject', location='us-central1')
```
Se você criar um job de ajuste supervisionado enviando uma solicitação POST com o método tuningJobs.create, use o URL para especificar a região onde o job de ajuste de detalhes será executado. Por exemplo, no URL a seguir, você especifica uma região substituindo as duas instâncias de TUNING_JOB_REGION pela região em que o job é executado.
```
 https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
```
Se você usa o Google Cloud console, selecione o nome da região no campo suspenso Região na página Detalhes do modelo. Essa é a mesma página em que você seleciona o modelo base e um nome de modelo ajustado.

Como avaliar modelos ajustados

É possível avaliar modelos ajustados das seguintes maneiras:

Métricas de ajuste e validação: avalie o modelo ajustado usando métricas de ajuste e validação após a conclusão do job de ajuste.
Avaliação integrada com o serviço de avaliação de IA generativa (visualização): configure jobs de ajuste para executar avaliações automaticamente usando o serviço de avaliação de IA generativa durante o ajuste. As seguintes interfaces, modelos e regiões são compatíveis com a integração de ajuste com o serviço de avaliação de IA generativa:
- Interfaces com suporte: SDK de IA Generativa do Google e API REST.
- Modelos com suporte: gemini-2.5-pro, gemini-2.5-flash e gemini-2.5-flash-lite.
- Regiões com suporte: para conferir uma lista de regiões com suporte, consulte Regiões com suporte.

Quota

A cota é aplicada ao número de jobs de ajuste simultâneos. Todo projeto tem uma cota padrão para executar pelo menos um job de ajuste. Essa é uma cota global compartilhada por todas as regiões disponíveis e modelos compatíveis. Se você quiser executar mais jobs simultaneamente, você precisa solicitar cota adicional para Global concurrent tuning jobs.

Se você configurar o serviço de avaliação de IA generativa para executar avaliações automaticamente durante o ajuste, consulte as cotas do serviço de avaliação de IA generativa.

Preços

Os preços do ajuste supervisionado do Gemini podem ser encontrados aqui: preços da Gemini Enterprise Agent Platform.

O número de tokens de treinamento é calculado multiplicando o número de tokens no conjunto de dados de treinamento pelo número de períodos. Após o ajuste, os custos de inferência (solicitação de previsão) para o modelo ajustado ainda se aplicam. O preço de inferência é o mesmo para cada versão estável do Gemini. Para mais informações, consulte Versões do modelo estáveis do Gemini disponíveis.

Se você configurar o serviço de avaliação de IA generativa para ser executado automaticamente durante o ajuste, as avaliações serão cobradas como jobs de previsão em lote. Para mais informações, consulte Preços.

A seguir

Saiba mais sobre o ajuste supervisionado.
Saiba como implantar um modelo do Gemini ajustado.