Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada unidade de escala de IA generativa (GSU) e as taxas de burndown de cada modelo.

Modelos do Google

A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente do seu projeto usando o ID específico do modelo, e não um alias. Para usar a capacidade de processamento provisionada e fazer chamadas de API para um modelo, use o ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001) e não um alias de versão do modelo.

Além disso, a capacidade de transmissão provisionada não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, seu pedido de taxa de transferência provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.

O Provisioned Throughput não é compatível com chamadas de previsão em lote.

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.

Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.

Modelo Capacidade de processamento por segundo por GSU Unidades Incremento mínimo de compra de GSU Taxas de burndown

Gemini 3 Pro

Versão mais recente com suporte: gemini-3-pro-preview (pré-lançamento)

500 Tokens 1 Menos de ou igual a 200.000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de resposta de saída = 6 tokens
1 token de texto de raciocínio de saída = 6 tokens

Mais de 200.000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagem de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de áudio de entrada = 2 tokens
1 token de texto de resposta de saída = 9 tokens
1 token de texto de raciocínio de saída = 9 tokens

Gemini 3 Pro Image

Versão mais recente compatível: gemini-3-pro-image-preview (pré-lançamento)

500 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 6 tokens
1 token de pensamento de saída = 6 tokens
1 token de imagem de saída = 60 tokens

Gemini 2.5 Pro

Versão mais recente compatível: gemini-2.5-pro

650 Tokens 1 Menos de ou igual a 200.000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de resposta de saída = 8 tokens
1 token de texto de raciocínio de saída = 8 tokens

Mais de 200.000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagem de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de áudio de entrada = 2 tokens
1 token de texto de resposta de saída = 12 tokens
1 token de texto de raciocínio de saída = 12 tokens

Imagem do Gemini 2.5 Flash

Versão mais recente compatível: gemini-2.5-flash-image

2.690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 9 tokens
1 token de imagem de saída = 100 tokens

Gemini 2.5 Flash

Versão mais recente compatível (GA): gemini-2.5-flash

Versão mais recente compatível (pré-lançamento): gemini-2.5-flash-preview-09-2025

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 4 tokens
1 token de texto de resposta de saída = 9 tokens
1 token de texto de raciocínio de saída = 9 tokens

Gemini 2.5 Flash-Lite

Versão mais recente compatível (GA): gemini-2.5-flash-lite

Versão mais recente compatível (pré-lançamento): gemini-2.5-flash-lite-preview-09-2025

8.070 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 3 tokens
1 token de texto de resposta de saída = 4 tokens
1 token de texto de raciocínio de saída = 4 tokens

Gemini 2.5 Flash com a API Live

Versão mais recente compatível: gemini-live-2.5-flash

1.620 Tokens 1 1 token de texto de entrada = 1 token de texto de entrada
1 token de áudio de entrada = 6 tokens de texto de entrada
1 token de vídeo de entrada = 6 tokens de texto de entrada
1 token de memória de sessão de entrada = 1 token de texto de entrada
1 token de texto de saída = 4 tokens de texto de entrada
1 token de áudio de saída = 24 tokens de texto de entrada

Gemini 2.5 Flash com áudio nativo da API Live

Versão mais recente com suporte: gemini-live-2.5-flash-preview-native-audio-09-2025 (pré-lançamento)

1.620 Tokens 1 1 token de texto de entrada = 1 token
1 token de áudio de entrada = 6 tokens
1 token de vídeo de entrada = 6 tokens
1 token de imagem de entrada = 6 tokens
1 token de memória de sessão de entrada = 1 token
1 token de texto de saída = 4 tokens
1 token de áudio de saída = 24 tokens

Gemini 2.0 Flash

Versão mais recente compatível: gemini-2.0-flash-001

3.360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 7 tokens
1 token de texto de saída = 4 tokens

Gemini 2.0 Flash Lite

Versão mais recente compatível: gemini-2.0-flash-lite-001

6.720 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de saída = 4 tokens

Prévia do Veo 3.1

Versão mais recente com suporte: veo-3.1-generate-001 (pré-lançamento)

0,0040 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de áudio e vídeo 1 1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída

Prévia do Veo 3.1 Fast

Versão mais recente com suporte: veo-3.1-fast-generate-001 (pré-lançamento)

0,0080 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de áudio e vídeo 1 1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída

Veo 3

Versão mais recente compatível: veo-3.0-generate-001

0,0040 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de áudio e vídeo 1 1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída

Veo 3 Fast

Versão mais recente compatível: veo-3.0-fast-generate-001

0,0080 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de áudio e vídeo 1 1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída

Geração do Imagen 4 Ultra

imagen-4.0-ultra-generate-001

0,015 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Geração do Imagen 4

imagen-4.0-generate-001

0,02 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Geração rápida do Imagen 4

imagen-4.0-fast-generate-001

0,04 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast 0,05 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Para informações sobre as capacidades de um modelo e limites de entrada ou saída, consulte a documentação do modelo.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Modelos de parceiros

A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown
Claude Opus 4.5 da Anthropic 210 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token ocorrência em cache = 0,1 token
Claude Sonnet 4.5 da Anthropic 350 25 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token de ocorrência em cache = 0,1 token

Maior ou igual a 200.000 tokens de entrada:
1 token de entrada = 2 tokens
1 token de saída = 7,5 tokens
1 token de gravação em cache de 5 minutos = 2,5 tokens
1 token de gravação em cache de 1 hora = 4 tokens
1 token de acerto de cache = 0,2 token
Claude Opus 4.1 da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token ocorrência em cache = 0,1 token
Claude Haiku 4.5 da Anthropic 1.050 8 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token ocorrência em cache = 0,1 token
Claude Opus 4 da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token ocorrência em cache = 0,1 token
Claude Sonnet 4 da Anthropic 350 25 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token de ocorrência em cache = 0,1 token

Maior ou igual a 200.000 tokens de entrada:
1 token de entrada = 2 tokens
1 token de saída = 7,5 tokens
1 token de gravação em cache de 5 minutos = 2,5 tokens
1 token de gravação em cache de 1 hora = 4 tokens
1 token de acerto de cache = 0,2 token
Claude 3.7 Sonnet da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache de 5 minutos = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude 3.5 Sonnet v2 da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache de 5 minutos = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude 3.5 Haiku da Anthropic 2.000 10 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token ocorrência em cache = 0,1 token
Claude 3 Opus da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache de 5 minutos = 1,25 token
1 token de ocorrência em cache = 0,1 token
Haiku do Claude 3 da Anthropic 4.200 5 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache de 5 minutos = 1,25 token
1 token de gravação em cache de 1 hora = 2 tokens
1 token ocorrência em cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache de 5 minutos = 1,25 token
1 token de ocorrência em cache = 0,1 token

Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir Provisioned Throughput para modelos da Anthropic, entre em contato com seu Google Cloud representante de conta.

Modelos abertos

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos abertos que oferecem suporte à capacidade de processamento provisionada.

Modelo Capacidade de processamento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown

DeepSeek-OCR

Versão mais recente compatível: deepseek-ocr-maas

3.360 1 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 4 tokens

Kimi K2 Thinking (em inglês)

Versão mais recente compatível: kimi-k2-thinking-maas

1.680 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Llama 3.3 70B

Versão mais recente compatível: llama-3.3-70b-instruct-maas

1.400 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 1 token

Llama 4 Maverick 17B-128E

Versão mais recente compatível: llama-4-maverick-17b-128e-instruct-maas

2.800 1 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 4 tokens

Llama 4 Scout 17B-16E

Versão mais recente compatível: llama-4-scout-17b-16e-instruct-maas

4.035 1 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 3 tokens

MiniMax M2

Versão mais recente compatível: minimax-m2-maas

3.360 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

OpenAI gpt-oss 120B

Versão mais recente compatível: gpt-oss-120b-maas

11.205 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

OpenAI gpt-oss 20B

Versão mais recente compatível: gpt-oss-20b-maas

14.405 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Qwen3 235B

Versão mais recente compatível: qwen3-235b-a22b-instruct-2507-maas

4.035 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Qwen3 Coder

Versão mais recente compatível: qwen3-coder-480b-a35b-instruct-maas

1.010 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Qwen3-Next-80B Instruct

Versão mais recente compatível: qwen3-next-80b-a3b-instruct-maas

6.725 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 8 tokens

Qwen3-Next-80B Thinking

Versão mais recente compatível: qwen3-next-80b-a3b-thinking-maas

6.725 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 8 tokens

Recursos disponíveis para modelos do Google e abertos

A tabela a seguir lista os recursos disponíveis com a capacidade de transmissão provisionada para modelos do Google e modelos abertos:

Capacidade Modelos do Google Modelos abertos (prévia)
Fazer um pedido pelo console do Google Cloud Sim Sim
Suporta endpoints globais Consulte Suporte a modelos de endpoint global. Consulte Suporte a modelos de endpoint global.
Suporte a modelos ajustados de forma supervisionada Sim Não
Suporte ao uso de chaves de API Sim Não
Integrado ao armazenamento em cache de contexto implícito Sim Não relevante
Integração com armazenamento em cache de contexto explícito Sim Não relevante
Processamento de ML Disponível em regiões específicas. Para mais detalhes, consulte Capacidade de processamento provisionada de zona única. Não relevante
Termos de pedido disponíveis 1 semana, 1 mês, 3 meses e 1 ano 1 mês, 3 meses e 1 ano
Mudar a ordem no console Sim Não
Status do pedido: pendente de revisão, aprovado, ativo, expirado Sim Sim
Os excedentes transbordam para o pagamento por uso por padrão Sim Sim
Controle de cabeçalho da API: use "dedicated" para usar apenas a capacidade de processamento provisionada ou "shared" para usar apenas o pagamento por uso. Sim Sim
Monitoring: métricas, painéis e alertas Sim Sim

Suporte ao modelo de endpoint global

O Provisioned Throughput é compatível com o endpoint global para modelos do Google e abertos.

O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.

Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.

Modelos do Google com suporte a endpoints globais

A tabela a seguir lista os modelos do Google em que a capacidade de processamento provisionada é compatível com o endpoint global:

Modelo Versão mais recente do modelo compatível
Gemini 3 Pro (pré-lançamento) gemini-3-pro-preview
Imagem do Gemini 3 Pro (pré-lançamento) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Imagem do Gemini 2.5 Flash gemini-2.5-flash-image
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Modelos abertos com suporte a endpoints globais

A tabela a seguir lista os modelos abertos para os quais a taxa de transferência provisionada é compatível com o endpoint global:

Modelo Versão mais recente do modelo compatível
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

Suporte para modelos ajustados de forma supervisionada

O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste de detalhes supervisionado:

  • A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.

  • Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.

    Por exemplo, o Provisioned Throughput comprado para gemini-2.0-flash-lite-001 em um projeto específico prioriza solicitações feitas de versões refinadas supervisionadas de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.

A seguir