Este guia explica como atualizar a sua aplicação para a versão mais recente do Gemini. Este guia pressupõe que a sua aplicação já usa uma versão mais antiga do Gemini. Para saber como começar a usar o Gemini no Vertex AI, consulte o início rápido da API Gemini no Vertex AI.
Este guia não aborda como mudar a sua aplicação do SDK Vertex AI para o SDK Google Gen AI atual. Para essas informações, consulte o nosso guia de migração do SDK Vertex AI.
Que alterações devo esperar?
A atualização da maioria das aplicações de IA generativa para a versão mais recente do Gemini requer poucas alterações ao código ou aos comandos. No entanto, algumas aplicações podem exigir ajustes de comandos. É difícil prever estas alterações sem testar primeiro os seus comandos com a nova versão. Recomendamos que faça testes exaustivos antes de migrar totalmente. Para ver sugestões sobre como criar comandos eficazes, consulte as nossas orientações sobre a estratégia de comandos. Use a nossa lista de verificação de comandos para ajudar a encontrar e corrigir problemas de comandos.
Só precisa de fazer alterações significativas ao código para determinadas alterações destrutivas ou para usar novas capacidades do Gemini.
Para que modelo do Gemini devo migrar?
O modelo do Gemini que usa depende das necessidades da sua aplicação. A tabela seguinte compara os modelos Gemini 1.5 mais antigos com os modelos Gemini mais recentes:
Funcionalidade | 1.5 Pro | 1.5 Flash | 2.0 Flash | 2.0 Flash-Lite | 2.5 Pro | 2.5 Flash | 2.5 Flash-Lite |
---|---|---|---|---|---|---|---|
Fase de lançamento | Descontinuado | Descontinuado | Disponível de forma geral | Disponível de forma geral | Disponível de forma geral | Disponível de forma geral | Disponível de forma geral |
Modalidades de entrada |
|
|
|
|
|
|
|
Modalidades de saída |
|
|
|
|
|
|
|
Capacidade de resposta, limite total de tokens | 2,097,152 | 1 048 576 | 1 048 576 | 1 048 576 | 1 048 576 | 1 048 576 | 1 048 576 |
Comprimento do contexto de saída | 8192 (predefinição) | 8192 (predefinição) | 8192 (predefinição) | 8192 (predefinição) | 65 535 (predefinição) | 65 535 (predefinição) | 65 536 (predefinição) |
Fundamentação com a Pesquisa Google | |||||||
Chamada de funções | |||||||
Execução de código | |||||||
Colocação em cache do contexto | |||||||
Previsão em lote | |||||||
API Live* | |||||||
Ajuste preciso | |||||||
Latência | |||||||
SDK recomendado | SDK Vertex AI | SDK Vertex AI | SDK de IA gen | SDK de IA gen | SDK de IA gen | SDK de IA gen | SDK de IA gen |
Unidades de preços | Personagem | Personagem | Símbolo | Símbolo | Símbolo | Símbolo | Símbolo |
Data de descontinuação | 24 de setembro de 2025 | 24 de setembro de 2025 | 5 de fevereiro de 2026 | 25 de fevereiro de 2026 | 17 de junho de 2026 | 17 de junho de 2026 | 22 de julho de 2026 |
* A API Live está disponível como oferta de pré-visualização como parte do gemini-live-2.5-flash
e do gemini-live-2.5-flash-preview-native-audio
.
Antes de começar a migrar
Antes de iniciar o processo de migração, deve considerar o seguinte:
- Segurança das informações (InfoSec), governação e aprovações regulamentares
- Disponibilidade de localização
- Diferenças de preços baseadas na modalidade e na tokenização
- Compre ou altere encomendas de débito processado
- Ajuste fino supervisionado
- Testes de regressão
InfoSec, gestão e aprovações regulamentares
Obtenha aprovações das suas equipas de segurança das informações (InfoSec), de risco e de conformidade antecipadamente. Abranger quaisquer regras de risco e conformidade específicas, especialmente em setores regulamentados, como os cuidados de saúde e as finanças.
Disponibilidade da localização
Os modelos da Google e de parceiros, bem como as funcionalidades de IA generativa na Vertex AI, estão disponíveis através de endpoints regionais específicos e de um endpoint global. Os pontos finais globais abrangem todo o mundo e oferecem uma disponibilidade e uma fiabilidade melhoradas em comparação com regiões únicas.
A disponibilidade de pontos finais regionais varia consoante o modelo. Para ver detalhes sobre cada modelo, consulte o nosso guia de localizações.
Diferenças de preços baseadas na modalidade e na tokenização
Os preços variam entre cada modelo do Gemini. A nossa página de preços apresenta os custos para todas as modalidades (texto, código, imagens, voz, etc.) por modelo.
Compre ou altere encomendas de débito processado
Se necessário, compre mais débito processado aprovisionado ou altere as encomendas de débito processado aprovisionado existentes.
Ajuste supervisionado
Os modelos Gemini mais recentes oferecem uma melhor qualidade de resultados. Isto pode significar que a sua aplicação já não precisa de um modelo otimizado. Se a sua aplicação usar o ajuste fino supervisionado com um modelo Gemini mais antigo, teste primeiro a aplicação com o modelo mais recente sem ajuste fino e avalie os resultados.
Se optar por usar o ajuste fino supervisionado, não pode mover o modelo ajustado existente das versões mais antigas do Gemini. Tem de executar uma nova tarefa de ajuste para a nova versão do Gemini.
Quando ajustar um novo modelo do Gemini, comece pelas definições de ajuste predefinidas. Não volte a usar valores de hiperparâmetros de versões anteriores do Gemini, porque o serviço de ajuste é otimizado para as versões mais recentes. É pouco provável que a reutilização de definições antigas produza resultados ideais.
Testes de regressão
Quando atualizar para a versão mais recente do Gemini, precisa de três tipos principais de testes de regressão:
- Testes de regressão de código: testes de regressão do ponto de vista da engenharia de software e das operações de programadores (DevOps). Este tipo de testes de regressão é sempre necessário.
-
Testes de regressão do desempenho do modelo: testes de regressão de uma perspetiva de ciência de dados ou aprendizagem automática. Isto significa garantir que a nova versão do modelo Gemini oferece resultados que, pelo menos, mantêm o mesmo nível de qualidade da versão anterior.
Os testes de regressão do desempenho do modelo são avaliações de modelos feitas quando um sistema ou o respetivo modelo subjacente muda. Estes incluem:
- Testes de desempenho offline: testes que afirmam a qualidade dos resultados do modelo num ambiente de experimentação dedicado com base em várias métricas de qualidade dos resultados do modelo.
- Testes de desempenho do modelo online: testes que afirmam a qualidade dos resultados do modelo numa implementação online em direto com base no feedback do utilizador implícito ou explícito.
- Testes de carga: estes testes verificam o desempenho da aplicação quando processa muitos pedidos em simultâneo. Os testes de carga são obrigatórios para aplicações que usam Provisioned Throughput.
Como migrar para a versão mais recente
As secções seguintes descrevem os passos para migrar para a versão mais recente do Gemini. Para obter os melhores resultados, conclua estes passos por ordem.
1. Documente os requisitos de avaliação e testes de modelos
- Prepare-se para repetir todas as avaliações relevantes que realizou quando criou a sua aplicação pela primeira vez, bem como todas as avaliações realizadas desde então.
- Se as suas avaliações atuais não abrangem nem medem totalmente todas as tarefas que a sua aplicação executa, crie e prepare mais avaliações. Pode usar o nosso manual de avaliação e as nossas receitas de avaliação para começar.
- Se a sua aplicação envolver RAG, utilização de ferramentas, fluxos de trabalho de agentes complexos ou cadeias de comandos, certifique-se de que os seus dados de avaliação existentes permitem avaliar cada componente de forma independente. Caso contrário, recolha exemplos de entrada/saída para cada componente.
- Se a sua aplicação for crítica ou fizer parte de um sistema em tempo real orientado para o utilizador mais amplo, inclua a avaliação online.
2. Faça atualizações de código e execute testes
A atualização do código requer três alterações principais:
- Atualize para o SDK Google Gen AI
- Altere as suas chamadas do Gemini
- Corrija alterações de código que causam problemas
As secções seguintes abordam estas alterações mais detalhadamente.
Atualize para o SDK de IA gen da Google
Se a sua aplicação Gemini 1.x usar o SDK da Vertex AI, mude para o SDK de IA gen. Consulte o nosso guia de migração do SDK Vertex AI para ver detalhes, incluindo exemplos de código para fazer chamadas semelhantes com o SDK Gen AI. As versões do SDK Vertex AI após junho de 2026 não vão suportar o Gemini, e as novas funcionalidades do Gemini só estão disponíveis no SDK de IA gen.
Se for um utilizador recente do SDK de IA gen, consulte o bloco de notas Introdução à IA generativa da Google com o SDK de IA gen.
Altere as suas chamadas do Gemini
Atualize o seu código de previsão para usar um dos modelos do Gemini mais recentes. No mínimo, isto significa alterar o nome do ponto final do modelo.
As alterações exatas ao código variam consoante a forma como criou a sua aplicação, especialmente se usou o SDK de IA gen ou o SDK de IA Vertex.
Depois de fazer alterações ao código, execute testes de regressão do código e outros testes de software para garantir que o código funciona como esperado. Este passo verifica se o código funciona, mas não a qualidade das respostas do modelo.
Corrija alterações de código que causam problemas
- Obtenção dinâmica: mude para a utilização da fundamentação com a Pesquisa Google. Esta funcionalidade requer o SDK de IA gen e não é suportada pelo SDK da Vertex AI.
- Filtros de conteúdo: tenha em atenção as definições predefinidas do filtro de conteúdo. Altere o código se este depender de uma predefinição que foi alterada.
Top-K
parâmetro de amostragem de tokens: Os modelos posteriores agemini-1.0-pro-vision
não suportam a alteração do parâmetroTop-K
.
Neste passo, concentre-se apenas nas alterações ao código. Pode ter de fazer outras alterações mais tarde, mas aguarde até iniciar a avaliação. Após as avaliações, considere estes ajustes com base nos resultados da avaliação:
- Se estiver a mudar da obtenção dinâmica, pode ter de ajustar as instruções do sistema para controlar quando a Pesquisa Google é usada (por exemplo,
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
). No entanto, aguarde até avaliar antes de alterar os comandos. - Se usou o parâmetro
Top-K
, ajuste outros parâmetros de amostragem de tokens, comoTop-P
, para obter resultados semelhantes.
3. Execute avaliações offline
Repita as avaliações que realizou quando desenvolveu e lançou a sua aplicação pela primeira vez, quaisquer avaliações offline feitas desde então e quaisquer avaliações adicionais que identificou no passo 1. Se ainda considerar que a sua avaliação não abrange totalmente o âmbito da sua aplicação, faça mais avaliações.
Se não tiver uma forma automática de executar avaliações offline, considere usar o serviço de avaliação de IA gen.
Se a sua aplicação usar o ajuste fino, faça uma avaliação offline antes de reajustar o modelo com a versão mais recente do Gemini. Os modelos mais recentes oferecem uma qualidade de saída melhorada, o que pode significar que a sua aplicação já não precisa de um modelo otimizado.
4. Avalie os resultados da avaliação e ajuste os comandos e os hiperparâmetros
Se a avaliação offline mostrar que a sua aplicação tem um desempenho menos eficaz, melhore-a até que o desempenho corresponda ao do modelo mais antigo. Para isso:
- Refinar iterativamente os comandos para aumentar o desempenho ("Hill Climbing"). Se for a primeira vez que usa a funcionalidade de subida de montanha, consulte a formação online de subida de montanha do Vertex Gemini. O Vertex AI Prompt Optimizer (exemplo de bloco de notas) também pode ajudar.
- Se a sua aplicação for afetada pelas alterações destrutivas da obtenção dinâmica e do Top-K, experimente ajustar os parâmetros de amostragem de tokens e do comando.
5. Execute testes de carga
Se a sua aplicação precisar de um débito mínimo específico, faça testes de carga para garantir que a versão mais recente da sua aplicação cumpre os requisitos de débito.
Os testes de carga têm de ocorrer antes da avaliação online, porque a avaliação online envolve a exposição do modelo ao tráfego em direto. Use as ferramentas de teste de carga e a instrumentação existentes para este passo.
Se a sua aplicação já cumpre as necessidades de débito, considere usar o Débito aprovisionado. Precisa de débito processado adicional a curto prazo para cobrir os testes de carga enquanto a sua encomenda de débito processado atual processa o tráfego de produção.
6. (Opcional) Execute avaliações online
Mude para a avaliação online apenas se a avaliação offline mostrar uma elevada qualidade de saída do Gemini e a sua aplicação exigir uma avaliação online.
A avaliação online é um tipo específico de testes online. Tente usar as ferramentas e os métodos existentes da sua organização para a avaliação online. Por exemplo:
- Se a sua organização realizar regularmente testes A/B, faça um para comparar a versão atual da sua aplicação com a versão mais recente do Gemini.
- Se a sua organização usar regularmente implementações canárias, use-as com os modelos mais recentes e meça as alterações no comportamento do utilizador.
Também pode fazer uma avaliação online adicionando novas funcionalidades de feedback e medição à sua aplicação. As diferentes aplicações precisam de diferentes métodos de feedback. Por exemplo:
- Adicionar botões de gosto e não gosto junto aos resultados do modelo e comparar as taxas entre um modelo mais antigo e os modelos Gemini mais recentes.
- Mostrar aos utilizadores resultados do modelo mais antigo e dos modelos mais recentes lado a lado e pedir-lhes que escolham o seu favorito.
- Monitorizar a frequência com que os utilizadores substituem ou ajustam manualmente os resultados do modelo mais antigo em comparação com os modelos mais recentes.
Estes métodos de feedback requerem frequentemente a execução da versão mais recente do Gemini juntamente com a versão existente. Esta implementação paralela é, por vezes, denominada "modo de sombra" ou "implementação azul-verde".
Se os resultados da avaliação online diferirem significativamente dos resultados da avaliação offline, a avaliação offline não está a captar aspetos importantes do ambiente em direto ou da experiência do utilizador. Aplique as conclusões da avaliação online para criar uma nova avaliação offline que cubra a lacuna e, em seguida, regresse ao passo 3.
Se usar o débito processado, pode ter de comprar débito processado a curto prazo adicional para continuar a cumprir os requisitos de débito processado para os utilizadores na avaliação online.
7. Implemente na produção
Assim que a avaliação mostrar que o modelo Gemini mais recente tem um desempenho igual ou superior ao de um modelo mais antigo, substitua a versão da aplicação existente pela nova versão. Siga os procedimentos padrão da sua organização para a implementação de produção.
Se estiver a usar o Débito aprovisionado, altere a ordem do Débito aprovisionado para o modelo Gemini escolhido. Se estiver a implementar a sua aplicação de forma incremental, use o débito processado a curto prazo para satisfazer as necessidades de débito processado de dois modelos do Gemini diferentes.
Melhorar o desempenho do modelo
À medida que migra, aplique estas dicas para alcançar o desempenho ideal com o modelo Gemini escolhido:
- Verifique as instruções do sistema, os comandos e os exemplos de aprendizagem com poucos dados quanto a inconsistências, contradições ou instruções e exemplos irrelevantes.
- Teste um modelo mais avançado. Por exemplo, se avaliou o Gemini 2.0 Flash-Lite, experimente o Gemini 2.0 Flash.
- Reveja os resultados da avaliação automática para garantir que correspondem ao julgamento humano, especialmente os resultados que usam um modelo de avaliador. Certifique-se de que as instruções do modelo de juiz são claras, consistentes e inequívocas.
- Para melhorar as instruções do modelo de avaliação, teste as instruções com vários humanos a trabalhar isoladamente. Se os humanos interpretarem as instruções de forma diferente e fornecerem julgamentos diferentes, as instruções do modelo de juiz não são claras.
- Ajuste o modelo.
- Examine os resultados da avaliação para encontrar padrões que mostrem tipos específicos de falhas. Agrupar as falhas por modelo, tipo ou categoria fornece dados de avaliação mais específicos, o que facilita o ajuste dos comandos para corrigir estes erros.
- Certifique-se de que avalia os diferentes componentes de IA generativa de forma independente.
- Experimente ajustar os parâmetros de amostragem de tokens.
Obter ajuda
Se precisar de assistência, Google Cloud oferece pacotes de apoio técnico para satisfazer as suas necessidades, como cobertura 24 horas por dia, 7 dias por semana, apoio técnico por telefone e acesso a um gestor de apoio técnico. Para mais informações, consulte Google Cloud Apoio técnico.
O que se segue?
- Consulte a lista de perguntas frequentes.
- Migre da API PaLM para a API Gemini no Vertex AI.