Modelos Google
O débito aprovisionado só é compatível com modelos que chama diretamente
a partir do seu projeto através do ID do modelo específico e não de um alias do modelo. Para usar o débito processado para fazer chamadas API a um modelo, tem de usar o ID da versão do modelo específico (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.
Além disso, o débito processado não suporta modelos que são chamados por outros produtos do Vertex AI, como os agentes do Vertex AI e o Vertex AI Search. Por exemplo, se fizer chamadas de API para o Gemini 2.0 Flash enquanto usa o Vertex AI Search, a sua encomenda de débito processado para o Gemini 2.0 Flash não garante as chamadas feitas pelo Vertex AI Search.
O débito aprovisionado não suporta chamadas de previsão em lote.
A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para os modelos Google que suportam o débito aprovisionado. O seu débito por segundo é definido como a entrada de comandos e a saída gerada em todos os pedidos por segundo.
Para saber quantos tokens a sua carga de trabalho requer, consulte o tokenizador do SDK ou a API countTokens.
| Modelo | Débito por segundo por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
|---|---|---|---|---|
|
Versão mais recente suportada: |
500 | Tokens | 1 |
Menos ou igual a 200 000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens Mais de 200 000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens |
|
Versão mais recente suportada: |
500 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 6 tokens 1 token de raciocínio de saída = 6 tokens 1 token de imagem de saída = 60 tokens |
|
Versão suportada mais recente: |
650 | Tokens | 1 |
Menos ou igual a 200 000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Mais de 200 000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens |
|
Versão suportada mais recente: |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 9 tokens 1 token de imagem de saída = 100 tokens |
|
Versão suportada mais recente (GA): Versão mais recente suportada (pré-visualização): |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens |
|
Versão suportada mais recente (GA): Versão mais recente suportada (pré-visualização): |
8070 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens |
Gemini 2.5 Flash com API Live Versão suportada mais recente: |
1620 | Tokens | 1 | 1 token de texto de entrada = 1 token de texto de entrada 1 token de áudio de entrada = 6 tokens de texto de entrada 1 token de vídeo de entrada = 6 tokens de texto de entrada 1 token de memória da sessão de entrada = 1 token de texto de entrada 1 token de texto de saída = 4 tokens de texto de entrada 1 token de áudio de saída = 24 tokens de texto de entrada |
|
Gemini 2.5 Flash com áudio nativo da API Live Versão mais recente suportada: |
1620 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de áudio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagem de entrada = 6 tokens 1 token de memória de sessão de entrada = 1 token 1 token de texto de saída = 4 tokens 1 token de áudio de saída = 24 tokens |
|
Versão suportada mais recente: |
3360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
6720 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens |
Versão mais recente suportada: |
0,0040 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de vídeo e áudio | 1 | 1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída | ||
Pré-visualização do Veo 3.1 Fast Versão mais recente suportada: |
0,0080 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de vídeo e áudio | 1 | 1 segundo de vídeo + áudio de saída = 1,45 segundos de vídeo de saída | ||
Versão suportada mais recente: |
0,0040 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de vídeo e áudio | 1 | 1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída | ||
Versão suportada mais recente: |
0,0080 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de vídeo e áudio | 1 | 1 segundo de vídeo + áudio de saída = 1,45 segundos de vídeo de saída | ||
|
|
0,015 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado. |
|
|
0,02 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
|
|
0,04 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado. |
|
|
0,02 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado. |
|
|
0,025 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
| Imagen 3 Fast | 0,05 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado aprovisionado. |
Para ver informações sobre as capacidades e os limites de entrada ou saída de um modelo, consulte a documentação do modelo.
Pode atualizar para novos modelos à medida que são disponibilizados. Para informações sobre a disponibilidade dos modelos e as datas de descontinuação, consulte os modelos da Google.
Para mais informações sobre as localizações suportadas, consulte o artigo Localizações disponíveis.
Modelos de parceiros
A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos de parceiros que suportam o débito aprovisionado. Os modelos Claude são medidos em tokens por segundo, que são definidos como um total de tokens de entrada e saída em todos os pedidos por segundo.
| Modelo | Débito por GSU (tokens/seg) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
|---|---|---|---|---|
| Claude Opus 4.5 da Anthropic | 210 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token |
| Claude Sonnet 4.5 da Anthropic | 350 | 25 | 1 | Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token Igual ou superior a 200 000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação na cache de 5 m = 2,5 tokens 1 token de gravação na cache de 1 h = 4 tokens 1 token de acerto na cache = 0,2 token |
| Claude Opus 4.1 da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token |
| Claude Haiku 4.5 da Anthropic | 1050 | 8 | 1 | Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 minutos = 1,25 tokens 1 token de gravação na cache de 1 hora = 2 tokens 1 token de acerto na cache = 0,1 token |
| Claude Opus da Anthropic 4 | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token |
| Claude Sonnet 4 da Anthropic | 350 | 25 | 1 | Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token Igual ou superior a 200 000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação na cache de 5 m = 2,5 tokens 1 token de gravação na cache de 1 h = 4 tokens 1 token de acerto na cache = 0,2 token |
| Claude 3.7 Sonnet da Anthropic (descontinuado) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de acerto na cache = 0,1 token |
| Claude 3.5 Sonnet v2 da Anthropic (descontinuado) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de acerto na cache = 0,1 token |
| Claude 3.5 Haiku da Anthropic | 2000 | 10 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token |
| Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 m = 1,25 tokens 1 token de acerto na cache = 0,1 token |
| Claude 3 Haiku da Anthropic | 4200 | 5 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de gravação na cache de 1 h = 2 tokens 1 token de acerto na cache = 0,1 token |
| Claude 3.5 Sonnet da Anthropic (descontinuado) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache de 5 min = 1,25 tokens 1 token de acerto na cache = 0,1 token |
Para informações sobre as localizações suportadas, consulte a disponibilidade da região do Anthropic Claude. Para encomendar o débito processado para modelos da Anthropic, contacte o seu Google Cloud representante da conta.
Abrir modelos
A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos abertos que suportam o débito aprovisionado.
| Modelo | Débito por GSU (tokens/seg) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
|---|---|---|---|---|
|
Versão suportada mais recente: |
3360 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
1680 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
1400 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 1 token |
|
Versão suportada mais recente: |
2800 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
4035 | 1 | 1 | 1 símbolo de texto de entrada = 1 símbolo 1 símbolo de imagem de entrada = 1 símbolo 1 símbolo de texto de saída = 3 símbolos |
|
Versão suportada mais recente: |
3360 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
11 205 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
14 405 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
4035 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
1010 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão suportada mais recente: |
6725 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens |
|
Versão suportada mais recente: |
6725 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens |
Capacidades disponíveis para modelos da Google e abertos
A tabela seguinte lista as capacidades disponíveis com o débito processado para modelos Google e modelos abertos:
| Capacidade | Modelos Google | Modelos abertos (pré-visualização) |
|---|---|---|
| Encomende através da consola Google Cloud | Sim | Sim |
| Suporta pontos finais globais | Consulte o artigo Compatibilidade com o modelo de ponto final global. | Consulte o artigo Compatibilidade com o modelo de ponto final global. |
| Suporta modelos com ajuste fino supervisionado | Sim | Não |
| Suporta a utilização de chaves da API | Sim | Não |
| Integração com a colocação em cache de contexto implícito | Sim | Não aplicável |
| Integração com o armazenamento em cache de contexto explícito | Sim | Não aplicável |
| Processamento de ML | Disponível em regiões específicas. Para ver detalhes, consulte o artigo Débito aprovisionado de zona única. | Não aplicável |
| Termos de encomenda disponíveis | 1 semana, 1 mês, 3 meses e 1 ano | 1 mês, 3 meses e 1 ano |
| Altere a ordem a partir da consola | Sim | Não |
| Estados das encomendas: revisão pendente, aprovada, ativa, expirada | Sim | Sim |
| Os gastos excessivos transbordam para o pagamento mediante utilização por predefinição | Sim | Sim |
| Controlo do cabeçalho da API: use "dedicado" para usar apenas o débito processado ou "partilhado" para usar apenas o pagamento conforme o uso | Sim | Sim |
| Monitorização: métricas, painéis de controlo e alertas | Sim | Sim |
Compatibilidade com o modelo de ponto final global
O débito processado suporta o ponto final global para modelos Google e modelos abertos.
Por predefinição, o tráfego que excede a quota de débito processado aprovisionado usa o ponto final global.
Para atribuir débito processado ao ponto final global de um modelo,
selecione global como a região quando fizer um pedido de débito processado.
Modelos Google com compatibilidade com o ponto final global
A tabela seguinte indica os modelos Google para os quais o débito aprovisionado suporta o ponto final global:
| Modelo | Versão do modelo suportada mais recente |
|---|---|
| Gemini 3 Pro (pré-visualização) | gemini-3-pro-preview |
| Gemini 3 Pro Image (pré-visualização) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash |
|
| Gemini 2.5 Flash-Lite |
|
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Modelos abertos com compatibilidade de ponto final global
A tabela seguinte indica os modelos abertos para os quais o débito aprovisionado suporta o ponto final global:
| Modelo | Versão do modelo suportada mais recente |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
Suporte de modelos ajustados com precisão supervisionados
O seguinte é suportado para modelos Google que suportam o ajuste fino supervisionado:
O débito processado pode ser aplicado a modelos base e a versões otimizadas supervisionadas desses modelos base.
Os pontos finais do modelo com ajuste fino supervisionado e a respetiva quantidade de modelos base contam para a mesma quota de débito processado.
Por exemplo, o débito processado comprado para
gemini-2.0-flash-lite-001para um projeto específico prioriza os pedidos feitos a partir de versões com ajuste fino supervisionado degemini-2.0-flash-lite-001criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.