Modelos suportados

As tabelas seguintes mostram os modelos que suportam o débito aprovisionado, o débito para cada unidade de escala de IA generativa (GSU) e as taxas de redução para cada modelo.

Modelos Google

O débito aprovisionado só é compatível com modelos que chama diretamente a partir do seu projeto através do ID do modelo específico e não de um alias do modelo. Para usar o débito processado para fazer chamadas API a um modelo, tem de usar o ID da versão do modelo específico (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.

Além disso, o débito aprovisionado não suporta modelos que são chamados por outros produtos do Vertex AI, como os agentes do Vertex AI e o Vertex AI Search. Por exemplo, se fizer chamadas de API para o Gemini 2.0 Flash enquanto usa o Vertex AI Search, a sua encomenda de débito processado para o Gemini 2.0 Flash não garante as chamadas feitas pelo Vertex AI Search.

O débito processado não suporta chamadas de previsão em lote.

A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para os modelos Google que suportam o débito aprovisionado. O seu débito por segundo é definido como a entrada de comandos e a saída gerada em todos os pedidos por segundo.

Para saber quantos tokens a sua carga de trabalho requer, consulte o tokenizador do SDK ou a API countTokens.

Modelo	Débito por segundo por GSU	Unidades	Incremento mínimo de compra de GSU	Taxas de burndown
Gemini 3 Flash Versão mais recente suportada: `gemini-3-flash-preview` (pré-visualização)	2015	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 2 tokens 1 token de texto, imagem ou vídeo de entrada em cache = 0,1 tokens 1 token de áudio de entrada em cache = 0,2 tokens 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens
Gemini 3 Pro Versão mais recente suportada: `gemini-3-pro-preview` (pré-visualização)	500	Tokens	1	Menos ou igual a 200 000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens Mais de 200 000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 3 Pro Image Versão mais recente suportada: `gemini-3-pro-image-preview` (pré-visualização)	500	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 6 tokens 1 token de raciocínio de saída = 6 tokens 1 token de imagem de saída = 60 tokens
Gemini 2.5 Pro Versão mais recente suportada: `gemini-2.5-pro`	650	Tokens	1	Menos ou igual a 200 000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Mais de 200 000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens
Gemini 2.5 Flash Image Versão mais recente suportada: `gemini-2.5-flash-image`	2690	Tokens	1	1 símbolo de texto de entrada = 1 símbolo 1 símbolo de imagem de entrada = 1 símbolo 1 símbolo de texto de saída = 9 símbolos 1 símbolo de imagem de saída = 100 símbolos
Gemini 2.5 Flash Versão suportada mais recente (GA): `gemini-2.5-flash` Versão mais recente suportada (pré-visualização): `gemini-2.5-flash-preview-09-2025`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 2.5 Flash-Lite Versão suportada mais recente (GA): `gemini-2.5-flash-lite` Versão mais recente suportada (pré-visualização): `gemini-2.5-flash-lite-preview-09-2025`	8070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens
Gemini 2.5 Flash com áudio nativo da API Gemini Live Versão mais recente suportada: `gemini-live-2.5-flash-native-audio`	1620	Tokens	1	1 token de texto de entrada = 1 token 1 token de áudio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagem de entrada = 6 tokens 1 token de memória da sessão de entrada = 1 token 1 token de texto de saída = 4 tokens 1 token de áudio de saída = 24 tokens
Gemini 2.0 Flash Versão mais recente suportada: `gemini-2.0-flash-001`	3360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens
Gemini 2.0 Flash-Lite Versão suportada mais recente: `gemini-2.0-flash-lite-001`	6720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens
Pré-visualização do Veo 3.1 Versão suportada mais recente: `veo-3.1-generate-001` (pré-visualização)	0,0040	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0040	Segundos de vídeo e áudio	1	1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída
Pré-visualização do Veo 3.1 Fast Versão mais recente suportada: `veo-3.1-fast-generate-001` (pré-visualização)	0,0080	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0080	Segundos de vídeo e áudio	1	1 segundo de vídeo+áudio de saída = 1,45 segundos de vídeo de saída
Veo 3 Versão mais recente suportada: `veo-3.0-generate-001`	0,0040	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Veo 3 Versão mais recente suportada: `veo-3.0-generate-001`	0,0040	Segundos de vídeo e áudio	1	1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída
Veo 3 Fast Versão mais recente suportada: `veo-3.0-fast-generate-001`	0,0080	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0080	Segundos de vídeo e áudio	1	1 segundo de vídeo+áudio de saída = 1,45 segundos de vídeo de saída
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0,015	Imagens	1	Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.
Imagen 4 Generate `imagen-4.0-generate-001`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.
Imagen 4 Fast Generate `imagen-4.0-fast-generate-001`	0,04	Imagens	1	Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Imagens	1	Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.
Imagen 3 Fast	0,05	Imagens	1	Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.

Para ver informações sobre as capacidades e os limites de entrada ou saída de um modelo, consulte a documentação do modelo.

Pedir acesso: o modelo gemini-live-2.5-flash está no GA privado. Para obter informações sobre o acesso a esta versão, consulte a página de pedido de acesso.

Pode atualizar para novos modelos à medida que são disponibilizados. Para informações sobre a disponibilidade dos modelos e as datas de descontinuação, consulte os modelos da Google.

Para mais informações sobre as localizações suportadas, consulte o artigo Localizações disponíveis.

Modelos de parceiros

A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos de parceiros que suportam o débito aprovisionado. Os modelos Claude são medidos em tokens por segundo, que são definidos como um total de tokens de entrada e saída em todos os pedidos por segundo.

Modelo	Débito por GSU (tokens/seg)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
Claude Opus 4.5 da Anthropic	210	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token
Claude Sonnet 4.5 da Anthropic	350	25	1	Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token Igual ou superior a 200 000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação na cache de 5 m = 2,5 tokens 1 token de gravação na cache de 1 h = 4 tokens 1 token de acerto na cache = 0,2 token
Claude Opus 4.1 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token
Claude Haiku 4.5 da Anthropic	1050	8	1	Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 minutos = 1,25 tokens 1 token de gravação na cache de 1 hora = 2 tokens 1 token de acerto na cache = 0,1 token
Claude Opus da Anthropic 4	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token
Claude Sonnet 4 da Anthropic	350	25	1	Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token Igual ou superior a 200 000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação na cache de 5 m = 2,5 tokens 1 token de gravação na cache de 1 h = 4 tokens 1 token de acerto na cache = 0,2 token
Claude 3.7 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de acerto na cache = 0,1 token
Claude 3.5 Sonnet v2 da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de acerto na cache = 0,1 token
Claude 3.5 Haiku da Anthropic (descontinuado)	2000	10	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token
Claude 3 Opus da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de acerto na cache = 0,1 token
Claude 3 Haiku da Anthropic	4200	5	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de acerto na cache = 0,1 token

Para informações sobre as localizações suportadas, consulte a disponibilidade da região do Anthropic Claude. Para encomendar o débito processado provisionado para modelos da Anthropic, contacte o seu Google Cloud representante da conta.

Abrir modelos

A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos abertos que suportam o débito aprovisionado.

Modelo	Débito por GSU (tokens/seg)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
DeepSeek-OCR Versão mais recente suportada: `deepseek-ocr-maas`	3360	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens
DeepSeek-V3.2 Versão mais recente suportada: `deepseek-v3.2-maas`	1680	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Kimi K2 Thinking Versão suportada mais recente: `kimi-k2-thinking-maas`	1680	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Llama 3.3 70B Versão suportada mais recente: `llama-3.3-70b-instruct-maas`	1400	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 1 token
Llama 4 Maverick 17B-128E Versão suportada mais recente: `llama-4-maverick-17b-128e-instruct-maas`	2800	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens
Llama 4 Scout 17B-16E Versão suportada mais recente: `llama-4-scout-17b-16e-instruct-maas`	4035	1	1	1 símbolo de texto de entrada = 1 símbolo 1 símbolo de imagem de entrada = 1 símbolo 1 símbolo de texto de saída = 3 símbolos
MiniMax M2 Versão mais recente suportada: `minimax-m2-maas`	3360	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
OpenAI gpt-oss 120B Versão mais recente suportada: `gpt-oss-120b-maas`	11 205	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
OpenAI gpt-oss 20B Versão mais recente suportada: `gpt-oss-20b-maas`	14 405	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3 235B Versão mais recente suportada: `qwen3-235b-a22b-instruct-2507-maas`	4035	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3 Coder Versão suportada mais recente: `qwen3-coder-480b-a35b-instruct-maas`	1010	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3-Next-80B Instruct Versão mais recente suportada: `qwen3-next-80b-a3b-instruct-maas`	6725	1	1	1 símbolo de texto de entrada = 1 símbolo 1 símbolo de texto de saída = 8 símbolos
Qwen3-Next-80B Thinking Versão mais recente suportada: `qwen3-next-80b-a3b-thinking-maas`	6725	1	1	1 símbolo de texto de entrada = 1 símbolo 1 símbolo de texto de saída = 8 símbolos

Capacidades disponíveis para modelos da Google e abertos

A tabela seguinte indica as capacidades disponíveis com o débito aprovisionado para modelos Google e modelos abertos:

Capacidade	Modelos Google	Modelos abertos (pré-visualização)
Encomende através da consola Google Cloud	Sim	Sim
Suporta pontos finais globais	Consulte o artigo Compatibilidade com o modelo de ponto final global.	Consulte o artigo Compatibilidade com o modelo de ponto final global.
Suporta modelos ajustados com supervisão	Sim	Não
Suporta a utilização de chaves da API	Sim	Não
Integração com a colocação em cache de contexto implícito	Sim	Não aplicável
Integração com o armazenamento em cache de contexto explícito	Sim	Não aplicável
Processamento de ML	Disponível em regiões específicas. Para ver detalhes, consulte o artigo Débito aprovisionado de zona única.	Não aplicável
Termos de encomenda disponíveis	1 semana, 1 mês, 3 meses e 1 ano	1 mês, 3 meses e 1 ano
Altere a ordem a partir da consola	Sim	Não
Estados das encomendas: revisão pendente, aprovada, ativa, expirada	Sim	Sim
Os gastos excessivos transbordam para o pagamento mediante utilização por predefinição	Sim	Sim
Controlo do cabeçalho da API: use "dedicated" para usar apenas o débito processado ou "shared" para usar apenas o pagamento conforme o uso	Sim	Sim
Monitorização: métricas, painéis de controlo e alertas	Sim	Sim

Compatibilidade com o modelo de ponto final global

A capacidade de débito aprovisionada suporta o ponto final global para modelos Google e modelos abertos.

O tráfego que excede a quota de débito processado aprovisionado usa o ponto final global por predefinição.

Para atribuir débito processado provisionado ao ponto final global de um modelo, selecione global como a região quando fizer um pedido de débito processado provisionado.

Modelos Google com compatibilidade com pontos finais globais

A tabela seguinte indica os modelos Google para os quais o débito processado suporta o ponto final global:

Modelo	Versão do modelo suportada mais recente
Gemini 3 Flash (pré-visualização)	`gemini-3-flash-preview`
Gemini 3 Pro (pré-visualização)	`gemini-3-pro-preview`
Gemini 3 Pro Image (pré-visualização)	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Imagem do Gemini 2.5 Flash	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (pré-visualizar) `gemini-2.5-flash` (GA)
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (pré-visualizar) `gemini-2.5-flash-lite` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

Modelos abertos com compatibilidade de pontos finais globais

A tabela seguinte indica os modelos abertos para os quais o débito aprovisionado suporta o ponto final global:

Modelo	Versão do modelo suportada mais recente
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`

Suporte de modelos ajustados com supervisão

O seguinte é suportado para modelos Google que suportam o ajuste fino supervisionado:

O débito processado pode ser aplicado a modelos base e a versões otimizadas supervisionadas desses modelos base.
Os pontos finais do modelo otimizado com ajuste fino supervisionado e a respetiva quantidade de modelos base são contabilizados para a mesma quota de débito processado.

Por exemplo, o débito processado aprovisionado comprado para gemini-2.0-flash-lite-001 para um projeto específico prioriza os pedidos feitos a partir de versões com ajuste fino supervisionado de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

O que se segue?

Calcule os requisitos de débito aprovisionado.

Modelos suportados Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos Google

Modelos de parceiros

Abrir modelos

Capacidades disponíveis para modelos da Google e abertos

Compatibilidade com o modelo de ponto final global

Modelos Google com compatibilidade com pontos finais globais

Modelos abertos com compatibilidade de pontos finais globais

Suporte de modelos ajustados com supervisão

O que se segue?

Modelos suportados