Acerca da otimização supervisionada para modelos do Gemini

O ajuste fino supervisionado é uma boa opção quando tem uma tarefa bem definida com dados etiquetados disponíveis. É particularmente eficaz para aplicações específicas do domínio em que o idioma ou o conteúdo diferem significativamente dos dados com os quais o modelo grande foi originalmente preparado. Pode ajustar os tipos de dados de texto, imagem, áudio, vídeo e documento. Também pode criar aplicações e agentes baseados no Gemini que podem interagir com informações e serviços em tempo real, como bases de dados, sistemas de gestão das relações com clientes e repositórios de documentos.

O ajuste fino supervisionado adapta o comportamento do modelo com um conjunto de dados etiquetado. Este processo ajusta as ponderações do modelo para minimizar a diferença entre as respetivas previsões e as etiquetas reais. Por exemplo, pode melhorar o desempenho do modelo para os seguintes tipos de tarefas:

  • Classificação
  • Resumo
  • Respostas a perguntas extrativas
  • Chat

Para uma discussão dos principais exemplos de utilização da otimização, consulte a publicação no blogue Centenas de organizações estão a otimizar os modelos Gemini. Seguem-se os exemplos de utilização favoritos.

Para saber mais, consulte o artigo Quando usar o ajuste fino supervisionado para o Gemini.

Modelos suportados

Os seguintes modelos Gemini suportam o ajuste fino supervisionado:

Para modelos que suportam o raciocínio, sugerimos que defina o orçamento de raciocínio como desativado ou o valor mais baixo. Isto pode melhorar o desempenho e reduzir os custos das tarefas otimizadas. Durante o ajuste fino supervisionado, o modelo aprende com os dados de preparação e omite o processo de reflexão. Por conseguinte, o modelo ajustado resultante pode realizar tarefas ajustadas de forma eficaz sem um orçamento de raciocínio.

Limitações

O ajuste fino supervisionado não é um Serviço Abrangido e está excluído do SLO de qualquer contrato de nível de serviço.

A tabela seguinte mostra as limitações dos conjuntos de dados de ajuste fino supervisionado:

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Especificação Valor
Número máximo de tokens de entrada e saída por exemplo de preparação 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Número máximo de exemplos num conjunto de dados de validação 5000 exemplos ou 30% do número de exemplos de preparação se existirem mais de 1000 exemplos de validação
Tamanho máximo do ficheiro do conjunto de dados de preparação 1 GB para JSONL
Tamanho máximo do conjunto de dados de preparação 10 milhões de exemplos apenas de texto ou 300 mil exemplos multimodais
Tamanho do transformador Os valores suportados são 1, 2, 4, 8 e 16

Gemini 2.5 Pro

Especificação Valor
Número máximo de tokens de entrada e saída de preparação 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Tamanho máximo do conjunto de dados de validação 5000 exemplos ou 30% do número de exemplos de preparação se existirem mais de 1000 exemplos de validação
Tamanho máximo do ficheiro do conjunto de dados de preparação 1 GB para JSONL
Tamanho máximo do conjunto de dados de preparação 10 milhões de exemplos apenas de texto ou 300 mil exemplos multimodais
Tamanho do transformador Os valores suportados são 1, 2, 4 e 8

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação Valor
Número máximo de tokens de entrada e saída de preparação 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Tamanho máximo do conjunto de dados de validação 5000 exemplos ou 30% do número de exemplos de preparação se existirem mais de 1000 exemplos de validação
Tamanho máximo do ficheiro do conjunto de dados de preparação 1 GB para JSONL
Tamanho máximo do conjunto de dados de preparação 10 milhões de exemplos apenas de texto ou 300 mil exemplos multimodais
Tamanho do transformador Os valores suportados são 1, 2, 4 e 8

Problemas conhecidos

  • A aplicação da geração controlada ao enviar pedidos de inferência para modelos Gemini otimizados pode resultar numa diminuição da qualidade do modelo devido ao desalinhamento de dados durante a otimização e o tempo de inferência. Durante o ajuste, a geração controlada não é aplicada, pelo que o modelo ajustado não consegue processar bem a geração controlada no momento da inferência. O ajuste fino supervisionado personaliza eficazmente o modelo para gerar resultados estruturados. Por isso, não precisa de aplicar a geração controlada quando faz pedidos de inferência em modelos otimizados.

Exemplos de utilização da otimização detalhada supervisionada

Os modelos de base funcionam bem quando a saída ou a tarefa esperada pode ser definida de forma clara e concisa num comando, e o comando produz sempre a saída esperada. Se quiser que um modelo aprenda algo específico ou de nicho que se desvie dos padrões gerais, pode considerar ajustar esse modelo. Por exemplo, pode usar o ajuste do modelo para ensinar o modelo o seguinte:

  • Estruturas ou formatos específicos para gerar resultados.
  • Comportamentos específicos, como quando fornecer um resultado conciso ou detalhado.
  • Resultados personalizados específicos para tipos de entradas específicos.

Os exemplos seguintes são exemplos de utilização difíceis de captar apenas com instruções de comando:

  • Classificação: a resposta esperada é uma palavra ou uma expressão específica.

    Ajustar o modelo pode ajudar a impedir que este gere respostas detalhadas.

  • Resumo: o resumo segue um formato específico. Por exemplo, pode ter de remover informações de identificação pessoal (IIP) num resumo do chat.

    Este formato de substituição dos nomes dos oradores por #Person1 e #Person2 é difícil de descrever, e o modelo base pode não produzir naturalmente uma resposta deste tipo.

  • Respostas a perguntas extrativas: a pergunta é sobre um contexto e a resposta é uma substring do contexto.

    A resposta "Último Máximo Glaciar" é uma expressão específica do contexto.

  • Chat: tem de personalizar a resposta do modelo para seguir um perfil, uma função ou um personagem.

Também pode ajustar um modelo nas seguintes situações:

  • Os comandos não estão a produzir os resultados esperados com consistência suficiente.
  • A tarefa é demasiado complicada para ser definida num comando. Por exemplo, quer que o modelo faça a clonagem de comportamento para um comportamento difícil de articular num comando.
  • Tem intuições complexas sobre uma tarefa que são difíceis de formalizar num comando.
  • Quer reduzir o comprimento do contexto removendo os exemplos de aprendizagem com poucos exemplos.

Configure uma região de tarefa de ajuste

Os dados do utilizador, como o conjunto de dados transformado e o modelo otimizado, são armazenados na região da tarefa de otimização. Durante o ajuste, a computação pode ser transferida para outras regiões US ou EU para aceleradores disponíveis. A transferência é transparente para os utilizadores.

  • Se usar o SDK do Vertex AI, pode especificar a região na inicialização. Por exemplo:

    import vertexai
    vertexai.init(project='myproject', location='us-central1')
    
  • Se criar uma tarefa de ajuste fino supervisionado enviando um pedido POST através do método tuningJobs.create, usa o URL para especificar a região onde a tarefa de ajuste é executada. Por exemplo, no URL seguinte, especifica uma região substituindo ambas as instâncias de TUNING_JOB_REGION pela região onde a tarefa é executada.

     https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
    
  • Se usar a Google Cloud consola, pode selecionar o nome da região no campo pendente Região na página Detalhes do modelo. Esta é a mesma página onde seleciona o modelo base e um nome de modelo otimizado.

Avaliação de modelos otimizados

Pode avaliar os modelos otimizados das seguintes formas:

  • Métricas de ajuste e validação: avalie o modelo ajustado usando métricas de ajuste e validação após a conclusão da tarefa de ajuste.

  • Avaliação integrada com o serviço de avaliação de IA gen (pré-visualização): configure tarefas de otimização para executar automaticamente avaliações através do serviço de avaliação de IA gen durante a otimização. As seguintes interfaces, modelos e regiões são suportados para a integração da otimização com o serviço de avaliação de IA gen:

    • Interfaces suportadas: SDK Google Gen AI e API REST.

    • Modelos suportados: gemini-2.5-pro, gemini-2.5-flash e gemini-2.5-flash-lite.

    • Regiões suportadas: para ver uma lista das regiões suportadas, consulte o artigo Regiões suportadas.

Quota

A quota é aplicada ao número de tarefas de ajuste simultâneas. Todos os projetos incluem uma quota predefinida para executar, pelo menos, um trabalho de otimização. Esta é uma quota global, partilhada em todas as regiões disponíveis e modelos suportados. Se quiser executar mais tarefas em simultâneo, tem de pedir quota adicional para Global concurrent tuning jobs.

Se configurar o serviço de avaliação de IA gen para executar avaliações automaticamente durante o ajuste, consulte as quotas do serviço de avaliação de IA gen.

Preços

Pode encontrar os preços da otimização precisa supervisionada do Gemini aqui: preços do Vertex AI.

O número de tokens de preparação é calculado multiplicando o número de tokens no conjunto de dados de preparação pelo número de épocas. Após a otimização, os custos de inferência (pedido de previsão) do modelo otimizado continuam a aplicar-se. O preço da inferência é o mesmo para cada versão estável do Gemini. Para mais informações, consulte o artigo Versões estáveis do modelo Gemini disponíveis.

Se configurar o serviço de avaliação de IA gen para ser executado automaticamente durante o ajuste, as avaliações são cobradas como tarefas de previsão em lote. Para mais informações, consulte a secção Preços.

O que se segue?