Modelos suportados

As tabelas seguintes mostram os modelos que suportam o débito aprovisionado, o débito para cada unidade de dimensionamento de IA generativa (GSU) e as taxas de redução para cada modelo.

Modelos Google

O débito aprovisionado só é compatível com modelos que chama diretamente a partir do seu projeto através do ID do modelo específico e não de um alias do modelo. Para usar o débito processado para fazer chamadas API a um modelo, tem de usar o ID da versão do modelo específico (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.

Além disso, o débito processado não suporta modelos que são chamados por outros produtos do Vertex AI, como os agentes do Vertex AI e o Vertex AI Search. Por exemplo, se fizer chamadas de API para o Gemini 2.0 Flash enquanto usa o Vertex AI Search, a sua encomenda de débito processado para o Gemini 2.0 Flash não garante as chamadas feitas pelo Vertex AI Search.

O débito aprovisionado não suporta chamadas de previsão em lote.

A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para os modelos Google que suportam o débito aprovisionado. O seu débito por segundo é definido como a entrada de comandos e a saída gerada em todos os pedidos por segundo.

Para saber quantos tokens a sua carga de trabalho requer, consulte o tokenizador do SDK ou a API countTokens.

Modelo Débito por segundo por GSU Unidades Incremento mínimo de compra de GSU Taxas de burndown

Gemini 3 Pro

Versão mais recente suportada: gemini-3-pro-preview (pré-visualização)

500 Tokens 1 Menos ou igual a 200 000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de resposta de saída = 6 tokens
1 token de texto de raciocínio de saída = 6 tokens

Mais de 200 000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagem de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de áudio de entrada = 2 tokens
1 token de texto de resposta de saída = 9 tokens
1 token de texto de raciocínio de saída = 9 tokens

Gemini 3 Pro Image

Versão mais recente suportada: gemini-3-pro-image-preview (pré-visualização)

500 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 6 tokens
1 token de raciocínio de saída = 6 tokens
1 token de imagem de saída = 60 tokens

Gemini 2.5 Pro

Versão suportada mais recente: gemini-2.5-pro

650 Tokens 1 Menos ou igual a 200 000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de resposta de saída = 8 tokens
1 token de texto de raciocínio de saída = 8 tokens

Mais de 200 000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagem de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de áudio de entrada = 2 tokens
1 token de texto de resposta de saída = 12 tokens
1 token de texto de raciocínio de saída = 12 tokens

Gemini 2.5 Flash Image

Versão suportada mais recente: gemini-2.5-flash-image

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 9 tokens
1 token de imagem de saída = 100 tokens

Gemini 2.5 Flash

Versão suportada mais recente (GA): gemini-2.5-flash

Versão mais recente suportada (pré-visualização): gemini-2.5-flash-preview-09-2025

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 4 tokens
1 token de texto de resposta de saída = 9 tokens
1 token de texto de raciocínio de saída = 9 tokens

Gemini 2.5 Flash-Lite

Versão suportada mais recente (GA): gemini-2.5-flash-lite

Versão mais recente suportada (pré-visualização): gemini-2.5-flash-lite-preview-09-2025

8070 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 3 tokens
1 token de texto de resposta de saída = 4 tokens
1 token de texto de raciocínio de saída = 4 tokens

Gemini 2.5 Flash com API Live

Versão suportada mais recente: gemini-live-2.5-flash

1620 Tokens 1 1 token de texto de entrada = 1 token de texto de entrada
1 token de áudio de entrada = 6 tokens de texto de entrada
1 token de vídeo de entrada = 6 tokens de texto de entrada
1 token de memória da sessão de entrada = 1 token de texto de entrada
1 token de texto de saída = 4 tokens de texto de entrada
1 token de áudio de saída = 24 tokens de texto de entrada

Gemini 2.5 Flash com áudio nativo da API Live

Versão mais recente suportada: gemini-live-2.5-flash-preview-native-audio-09-2025 (pré-visualização)

1620 Tokens 1 1 token de texto de entrada = 1 token
1 token de áudio de entrada = 6 tokens
1 token de vídeo de entrada = 6 tokens
1 token de imagem de entrada = 6 tokens
1 token de memória de sessão de entrada = 1 token
1 token de texto de saída = 4 tokens
1 token de áudio de saída = 24 tokens

Gemini 2.0 Flash

Versão suportada mais recente: gemini-2.0-flash-001

3360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 7 tokens
1 token de texto de saída = 4 tokens

Gemini 2.0 Flash-Lite

Versão suportada mais recente: gemini-2.0-flash-lite-001

6720 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de saída = 4 tokens

Pré-visualização do Veo 3.1

Versão mais recente suportada: veo-3.1-generate-001 (pré-visualização)

0,0040 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de vídeo e áudio 1 1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída

Pré-visualização do Veo 3.1 Fast

Versão mais recente suportada: veo-3.1-fast-generate-001 (pré-visualização)

0,0080 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de vídeo e áudio 1 1 segundo de vídeo + áudio de saída = 1,45 segundos de vídeo de saída

Veo 3

Versão suportada mais recente: veo-3.0-generate-001

0,0040 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de vídeo e áudio 1 1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída

Veo 3 Fast

Versão suportada mais recente: veo-3.0-fast-generate-001

0,0080 Segundos de vídeo 1 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de vídeo e áudio 1 1 segundo de vídeo + áudio de saída = 1,45 segundos de vídeo de saída

Imagen 4 Ultra Generate

imagen-4.0-ultra-generate-001

0,015 Imagens 1 Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado.

Imagen 4 Generate

imagen-4.0-generate-001

0,02 Imagens 1 Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.

Imagen 4 Fast Generate

imagen-4.0-fast-generate-001

0,04 Imagens 1 Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Imagens 1 Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Imagens 1 Apenas as imagens de saída são contabilizadas para a sua quota de débito processado.
Imagen 3 Fast 0,05 Imagens 1 Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado.

Para ver informações sobre as capacidades e os limites de entrada ou saída de um modelo, consulte a documentação do modelo.

Pode atualizar para novos modelos à medida que são disponibilizados. Para informações sobre a disponibilidade dos modelos e as datas de descontinuação, consulte os modelos da Google.

Para mais informações sobre as localizações suportadas, consulte o artigo Localizações disponíveis.

Modelos de parceiros

A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos de parceiros que suportam o débito aprovisionado. Os modelos Claude são medidos em tokens por segundo, que são definidos como um total de tokens de entrada e saída em todos os pedidos por segundo.

Modelo Débito por GSU (tokens/seg) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown
Claude Opus 4.5 da Anthropic 210 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 min = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token
Claude Sonnet 4.5 da Anthropic 350 25 1 Menos de 200 000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 m = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token

Igual ou superior a 200 000 tokens de entrada:
1 token de entrada = 2 tokens
1 token de saída = 7,5 tokens
1 token de gravação na cache de 5 m = 2,5 tokens
1 token de gravação na cache de 1 h = 4 tokens
1 token de acerto na cache = 0,2 token
Claude Opus 4.1 da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 min = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token
Claude Haiku 4.5 da Anthropic 1050 8 1 Menos de 200 000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 minutos = 1,25 tokens
1 token de gravação na cache de 1 hora = 2 tokens
1 token de acerto na cache = 0,1 token
Claude Opus da Anthropic 4 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 min = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token
Claude Sonnet 4 da Anthropic 350 25 1 Menos de 200 000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 m = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token

Igual ou superior a 200 000 tokens de entrada:
1 token de entrada = 2 tokens
1 token de saída = 7,5 tokens
1 token de gravação na cache de 5 m = 2,5 tokens
1 token de gravação na cache de 1 h = 4 tokens
1 token de acerto na cache = 0,2 token
Claude 3.7 Sonnet da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 m = 1,25 tokens
1 token de acerto na cache = 0,1 token
Claude 3.5 Sonnet v2 da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 m = 1,25 tokens
1 token de acerto na cache = 0,1 token
Claude 3.5 Haiku da Anthropic 2000 10 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 min = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token
Claude 3 Opus da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 m = 1,25 tokens
1 token de acerto na cache = 0,1 token
Claude 3 Haiku da Anthropic 4200 5 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 min = 1,25 tokens
1 token de gravação na cache de 1 h = 2 tokens
1 token de acerto na cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação na cache de 5 min = 1,25 tokens
1 token de acerto na cache = 0,1 token

Para informações sobre as localizações suportadas, consulte a disponibilidade da região do Anthropic Claude. Para encomendar o débito processado para modelos da Anthropic, contacte o seu Google Cloud representante da conta.

Abrir modelos

A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos abertos que suportam o débito aprovisionado.

Modelo Débito por GSU (tokens/seg) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown

DeepSeek-OCR

Versão suportada mais recente: deepseek-ocr-maas

3360 1 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 4 tokens

Kimi K2 Thinking

Versão suportada mais recente: kimi-k2-thinking-maas

1680 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Llama 3.3 70B

Versão suportada mais recente: llama-3.3-70b-instruct-maas

1400 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 1 token

Llama 4 Maverick 17B-128E

Versão suportada mais recente: llama-4-maverick-17b-128e-instruct-maas

2800 1 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 4 tokens

Llama 4 Scout 17B-16E

Versão suportada mais recente: llama-4-scout-17b-16e-instruct-maas

4035 1 1 1 símbolo de texto de entrada = 1 símbolo
1 símbolo de imagem de entrada = 1 símbolo
1 símbolo de texto de saída = 3 símbolos

MiniMax M2

Versão suportada mais recente: minimax-m2-maas

3360 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

OpenAI gpt-oss 120B

Versão suportada mais recente: gpt-oss-120b-maas

11 205 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

OpenAI gpt-oss 20B

Versão suportada mais recente: gpt-oss-20b-maas

14 405 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Qwen3 235B

Versão suportada mais recente: qwen3-235b-a22b-instruct-2507-maas

4035 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Qwen3 Coder

Versão suportada mais recente: qwen3-coder-480b-a35b-instruct-maas

1010 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 4 tokens

Qwen3-Next-80B Instruct

Versão suportada mais recente: qwen3-next-80b-a3b-instruct-maas

6725 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 8 tokens

Qwen3-Next-80B Thinking

Versão suportada mais recente: qwen3-next-80b-a3b-thinking-maas

6725 1 1 1 token de texto de entrada = 1 token
1 token de texto de saída = 8 tokens

Capacidades disponíveis para modelos da Google e abertos

A tabela seguinte lista as capacidades disponíveis com o débito processado para modelos Google e modelos abertos:

Capacidade Modelos Google Modelos abertos (pré-visualização)
Encomende através da consola Google Cloud Sim Sim
Suporta pontos finais globais Consulte o artigo Compatibilidade com o modelo de ponto final global. Consulte o artigo Compatibilidade com o modelo de ponto final global.
Suporta modelos com ajuste fino supervisionado Sim Não
Suporta a utilização de chaves da API Sim Não
Integração com a colocação em cache de contexto implícito Sim Não aplicável
Integração com o armazenamento em cache de contexto explícito Sim Não aplicável
Processamento de ML Disponível em regiões específicas. Para ver detalhes, consulte o artigo Débito aprovisionado de zona única. Não aplicável
Termos de encomenda disponíveis 1 semana, 1 mês, 3 meses e 1 ano 1 mês, 3 meses e 1 ano
Altere a ordem a partir da consola Sim Não
Estados das encomendas: revisão pendente, aprovada, ativa, expirada Sim Sim
Os gastos excessivos transbordam para o pagamento mediante utilização por predefinição Sim Sim
Controlo do cabeçalho da API: use "dedicado" para usar apenas o débito processado ou "partilhado" para usar apenas o pagamento conforme o uso Sim Sim
Monitorização: métricas, painéis de controlo e alertas Sim Sim

Compatibilidade com o modelo de ponto final global

O débito processado suporta o ponto final global para modelos Google e modelos abertos.

Por predefinição, o tráfego que excede a quota de débito processado aprovisionado usa o ponto final global.

Para atribuir débito processado ao ponto final global de um modelo, selecione global como a região quando fizer um pedido de débito processado.

Modelos Google com compatibilidade com o ponto final global

A tabela seguinte indica os modelos Google para os quais o débito aprovisionado suporta o ponto final global:

Modelo Versão do modelo suportada mais recente
Gemini 3 Pro (pré-visualização) gemini-3-pro-preview
Gemini 3 Pro Image (pré-visualização) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025  (pré-visualizar)
  • gemini-2.5-flash-lite  (GA)
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Modelos abertos com compatibilidade de ponto final global

A tabela seguinte indica os modelos abertos para os quais o débito aprovisionado suporta o ponto final global:

Modelo Versão do modelo suportada mais recente
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

Suporte de modelos ajustados com precisão supervisionados

O seguinte é suportado para modelos Google que suportam o ajuste fino supervisionado:

  • O débito processado pode ser aplicado a modelos base e a versões otimizadas supervisionadas desses modelos base.

  • Os pontos finais do modelo com ajuste fino supervisionado e a respetiva quantidade de modelos base contam para a mesma quota de débito processado.

    Por exemplo, o débito processado comprado para gemini-2.0-flash-lite-001 para um projeto específico prioriza os pedidos feitos a partir de versões com ajuste fino supervisionado de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

O que se segue?