Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada unidade de escala de IA generativa (GSU) e as taxas de burndown de cada modelo.

Modelos do Google

A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente do seu projeto usando o ID específico do modelo, e não um alias. Para usar o Provisioned Throughput e fazer chamadas de API para um modelo, use o ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.

Embora a capacidade de transmissão provisionada garanta a capacidade para as solicitações do seu modelo, ela não inclui nem ignora cotas para outras ferramentas que você pode usar, como fundamentação. Dependendo do tamanho da sua carga de trabalho, talvez seja necessário solicitar mais cota para essas ferramentas separadamente.

Além disso, o Provisioned Throughput não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, seu pedido de taxa de transferência provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.

O Provisioned Throughput não é compatível com chamadas de previsão em lote.

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.

Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.

Modelo	Capacidade de processamento por segundo por GSU	Unidades	Incremento mínimo de compra de GSU	Taxas de burndown
Gemini 3 Flash Versão mais recente com suporte: `gemini-3-flash-preview` (pré-lançamento)	2015	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 2 tokens 1 token de texto, imagem, vídeo em cache de entrada = 0,1 token 1 token de áudio em cache de entrada = 0,2 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens
Gemini 3 Pro Versão mais recente com suporte: `gemini-3-pro-preview` (pré-lançamento)	500	Tokens	1	Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 3 Pro Image Versão mais recente com suporte: `gemini-3-pro-image-preview` (pré-lançamento)	500	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 6 tokens 1 token de pensamento de saída = 6 tokens 1 token de imagem de saída = 60 tokens
Gemini 2.5 Pro Versão mais recente compatível: `gemini-2.5-pro`	650	Tokens	1	Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens
Criação de Imagens do Gemini 2.5 Flash Versão mais recente compatível: `gemini-2.5-flash-image`	2.690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 9 tokens 1 token de imagem de saída = 100 tokens
Gemini 2.5 Flash Versão mais recente compatível (GA): `gemini-2.5-flash` Versão mais recente compatível (pré-lançamento): `gemini-2.5-flash-preview-09-2025`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 2.5 Flash-Lite Versão mais recente compatível (GA): `gemini-2.5-flash-lite` Versão mais recente compatível (pré-lançamento): `gemini-2.5-flash-lite-preview-09-2025`	8.070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens
Gemini 2.5 Flash com áudio nativo da API Gemini Live Versão mais recente compatível: `gemini-live-2.5-flash-native-audio`	1.620	Tokens	1	1 token de texto de entrada = 1 token 1 token de áudio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagem de entrada = 6 tokens 1 token de memória de sessão de entrada = 1 token 1 token de texto de saída = 4 tokens 1 token de áudio de saída = 24 tokens
Gemini 2.0 Flash Versão mais recente compatível: `gemini-2.0-flash-001`	3.360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens
Gemini 2.0 Flash-Lite Versão mais recente compatível: `gemini-2.0-flash-lite-001`	6.720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens
Prévia do Veo 3.1 Versão mais recente com suporte: `veo-3.1-generate-001` (pré-lançamento)	0,0040	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0040	Segundos de áudio e vídeo	1	1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída
Prévia do Veo 3.1 Fast Versão mais recente com suporte: `veo-3.1-fast-generate-001` (pré-lançamento)	0,0080	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0080	Segundos de áudio e vídeo	1	1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída
Veo 3 Versão mais recente compatível: `veo-3.0-generate-001`	0,0040	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0040	Segundos de áudio e vídeo	1	1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída
Veo 3 Fast Versão mais recente compatível: `veo-3.0-fast-generate-001`	0,0080	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0080	Segundos de áudio e vídeo	1	1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída
Geração de imagens com o Imagen 4 Ultra `imagen-4.0-ultra-generate-001`	0,015	Imagens	1	Somente as imagens de saída são contabilizadas na cota de capacidade de transmissão provisionada.
Geração do Imagen 4 `imagen-4.0-generate-001`	0,02	Imagens	1	Somente as imagens de saída são contabilizadas na cota de capacidade de transmissão provisionada.
Geração rápida do Imagen 4 `imagen-4.0-fast-generate-001`	0,04	Imagens	1	Somente as imagens de saída são contabilizadas na cota de capacidade de transmissão provisionada.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Imagens	1	Somente as imagens de saída são contabilizadas na cota de capacidade de transmissão provisionada.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Imagens	1	Somente as imagens de saída são contabilizadas na cota de capacidade de transmissão provisionada.
Imagen 3 Fast	0,05	Imagens	1	Somente as imagens de saída são contabilizadas na cota de capacidade de transmissão provisionada.

Para informações sobre as capacidades de um modelo e os limites de entrada ou saída, consulte a documentação do modelo.

Solicitar acesso:o modelo gemini-live-2.5-flash está em GA particular. Para informações sobre o acesso a essa versão, consulte a página de solicitação de acesso.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Modelos de parceiros

A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo	Capacidade de processamento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
Claude Opus 4.5 da Anthropic	210	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token
Anthropic Claude Sonnet 4.5	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache de 5 minutos = 2,5 tokens 1 token de gravação em cache de 1 hora = 4 tokens 1 token de ocorrência de cache = 0,2 token
Claude Opus 4.1 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token
Claude Haiku 4.5 da Anthropic	1.050	8	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token
Claude Opus 4 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token
Claude Sonnet 4 da Anthropic	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache de 5 minutos = 2,5 tokens 1 token de gravação em cache de 1 hora = 4 tokens 1 token de ocorrência de cache = 0,2 token
Claude 3.7 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência de cache = 0,1 token
Claude 3.5 Sonnet v2 da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência de cache = 0,1 token
Claude 3.5 Haiku da Anthropic (descontinuado)	2.000	10	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token
Claude 3 Opus da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência de cache = 0,1 token
Haiku do Claude 3 da Anthropic	4.200	5	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência de cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência de cache = 0,1 token

Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir taxa de transferência provisionada para modelos da Anthropic, entre em contato com seu representante da contaGoogle Cloud .

Modelos abertos

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos abertos que oferecem suporte à capacidade de processamento provisionada.

Modelo	Capacidade de processamento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
DeepSeek-OCR Versão mais recente compatível: `deepseek-ocr-maas`	3.360	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens
DeepSeek-V3.2 Versão mais recente compatível: `deepseek-v3.2-maas`	1.680	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Kimi K2 Thinking (em inglês) Versão mais recente compatível: `kimi-k2-thinking-maas`	1.680	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Llama 3.3 70B Versão mais recente compatível: `llama-3.3-70b-instruct-maas`	1.400	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 1 token
Llama 4 Maverick 17B-128E Versão mais recente compatível: `llama-4-maverick-17b-128e-instruct-maas`	2.800	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens
Llama 4 Scout 17B-16E Versão mais recente compatível: `llama-4-scout-17b-16e-instruct-maas`	4.035	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 3 tokens
MiniMax M2 Versão mais recente compatível: `minimax-m2-maas`	3.360	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
OpenAI gpt-oss 120B Versão mais recente compatível: `gpt-oss-120b-maas`	11.205	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
OpenAI gpt-oss 20B Versão mais recente compatível: `gpt-oss-20b-maas`	14.405	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3 235B Versão mais recente compatível: `qwen3-235b-a22b-instruct-2507-maas`	4.035	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3 Coder Versão mais recente compatível: `qwen3-coder-480b-a35b-instruct-maas`	1.010	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3-Next-80B Instruct Versão mais recente compatível: `qwen3-next-80b-a3b-instruct-maas`	6.725	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens
Qwen3-Next-80B Thinking Versão mais recente compatível: `qwen3-next-80b-a3b-thinking-maas`	6.725	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens

Recursos disponíveis para modelos do Google e abertos

A tabela a seguir lista os recursos disponíveis com a capacidade de transmissão provisionada para modelos do Google e modelos abertos:

Capacidade	Modelos do Google	Modelos abertos (prévia)
Fazer um pedido pelo console do Google Cloud	Sim	Sim
Suporta endpoints globais	Consulte Suporte a modelos de endpoint global.	Consulte Suporte a modelos de endpoint global.
Suporte a modelos ajustados de forma supervisionada	Sim	Não
Suporte ao uso de chaves de API	Sim	Não
Integrado ao armazenamento em cache de contexto implícito	Sim	Não relevante
Integração com armazenamento em cache de contexto explícito	Sim	Não relevante
Processamento de ML	Disponível em regiões específicas. Para mais detalhes, consulte Capacidade de processamento provisionada de zona única.	Não relevante
Termos de pedido disponíveis	1 semana, 1 mês, 3 meses e 1 ano	1 mês, 3 meses e 1 ano
Mudar a ordem no console	Sim	Não
Status do pedido: pendente de revisão, aprovado, ativo, expirado	Sim	Sim
Os excedentes transbordam para o pagamento por uso por padrão	Sim	Sim
Controle de cabeçalho da API: use "dedicated" para usar apenas a capacidade provisionada ou "shared" para usar apenas o pagamento por uso.	Sim	Sim
Monitoring: métricas, painéis e alertas	Sim	Sim

Suporte ao modelo de endpoint global

O Provisioned Throughput é compatível com o endpoint global para modelos do Google e abertos.

O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.

Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.

Modelos do Google com suporte a endpoints globais

A tabela a seguir lista os modelos do Google em que a capacidade de processamento provisionada é compatível com o endpoint global:

Modelo	Versão mais recente do modelo compatível
Gemini 3 Flash (pré-lançamento)	`gemini-3-flash-preview`
Gemini 3 Pro (pré-lançamento)	`gemini-3-pro-preview`
Imagem do Gemini 3 Pro (pré-lançamento)	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Imagem do Gemini 2.5 Flash	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (pré-lançamento) `gemini-2.5-flash` (GA)
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (pré-lançamento) `gemini-2.5-flash-lite` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

Modelos abertos com suporte a endpoints globais

A tabela a seguir lista os modelos abertos para os quais a taxa de transferência provisionada é compatível com o endpoint global:

Modelo	Versão mais recente do modelo compatível
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`

Suporte para modelos ajustados de forma supervisionada

O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste de detalhes supervisionado:

A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.
Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.

Por exemplo, o Provisioned Throughput comprado para gemini-2.0-flash-lite-001 em um projeto específico prioriza solicitações feitas de versões refinadas supervisionadas de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.

A seguir

Calcule os requisitos de capacidade de processamento provisionada.

Modelos compatíveis Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos do Google

Modelos de parceiros

Modelos abertos

Recursos disponíveis para modelos do Google e abertos

Suporte ao modelo de endpoint global

Modelos do Google com suporte a endpoints globais

Modelos abertos com suporte a endpoints globais

Suporte para modelos ajustados de forma supervisionada

A seguir

Modelos compatíveis