Modelos do Google
A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente
do seu projeto usando o ID específico do modelo, e não um alias. Para usar a
capacidade de processamento provisionada e fazer chamadas de API para um modelo, use o
ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001) e não um
alias de versão do modelo.
Além disso, a capacidade de transmissão provisionada não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, seu pedido de taxa de transferência provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.
O Provisioned Throughput não é compatível com chamadas de previsão em lote.
A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.
Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.
| Modelo | Capacidade de processamento por segundo por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
|---|---|---|---|---|
|
Versão mais recente com suporte: |
500 | Tokens | 1 |
Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens |
|
Versão mais recente compatível: |
500 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 6 tokens 1 token de pensamento de saída = 6 tokens 1 token de imagem de saída = 60 tokens |
|
Versão mais recente compatível: |
650 | Tokens | 1 |
Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens |
|
Versão mais recente compatível: |
2.690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 9 tokens 1 token de imagem de saída = 100 tokens |
|
Versão mais recente compatível (GA): Versão mais recente compatível (pré-lançamento): |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens |
|
Versão mais recente compatível (GA): Versão mais recente compatível (pré-lançamento): |
8.070 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens |
Gemini 2.5 Flash com a API Live Versão mais recente compatível: |
1.620 | Tokens | 1 | 1 token de texto de entrada = 1 token de texto de entrada 1 token de áudio de entrada = 6 tokens de texto de entrada 1 token de vídeo de entrada = 6 tokens de texto de entrada 1 token de memória de sessão de entrada = 1 token de texto de entrada 1 token de texto de saída = 4 tokens de texto de entrada 1 token de áudio de saída = 24 tokens de texto de entrada |
|
Gemini 2.5 Flash com áudio nativo da API Live Versão mais recente com suporte: |
1.620 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de áudio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagem de entrada = 6 tokens 1 token de memória de sessão de entrada = 1 token 1 token de texto de saída = 4 tokens 1 token de áudio de saída = 24 tokens |
|
Versão mais recente compatível: |
3.360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
6.720 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens |
Versão mais recente com suporte: |
0,0040 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de áudio e vídeo | 1 | 1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída | ||
Versão mais recente com suporte: |
0,0080 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de áudio e vídeo | 1 | 1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída | ||
Versão mais recente compatível: |
0,0040 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de áudio e vídeo | 1 | 1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída | ||
Versão mais recente compatível: |
0,0080 | Segundos de vídeo | 1 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
| Segundos de áudio e vídeo | 1 | 1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída | ||
|
|
0,015 | Imagens | 1 | Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
|
|
0,02 | Imagens | 1 | Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
|
|
0,04 | Imagens | 1 | Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
|
|
0,02 | Imagens | 1 | Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
|
|
0,025 | Imagens | 1 | Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
| Imagen 3 Fast | 0,05 | Imagens | 1 | Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. |
Para informações sobre as capacidades de um modelo e limites de entrada ou saída, consulte a documentação do modelo.
Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.
Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.
Modelos de parceiros
A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.
| Modelo | Capacidade de processamento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
|---|---|---|---|---|
| Claude Opus 4.5 da Anthropic | 210 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token ocorrência em cache = 0,1 token |
| Claude Sonnet 4.5 da Anthropic | 350 | 25 | 1 | Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache de 5 minutos = 2,5 tokens 1 token de gravação em cache de 1 hora = 4 tokens 1 token de acerto de cache = 0,2 token |
| Claude Opus 4.1 da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token ocorrência em cache = 0,1 token |
| Claude Haiku 4.5 da Anthropic | 1.050 | 8 | 1 | Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token ocorrência em cache = 0,1 token |
| Claude Opus 4 da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token ocorrência em cache = 0,1 token |
| Claude Sonnet 4 da Anthropic | 350 | 25 | 1 | Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache de 5 minutos = 2,5 tokens 1 token de gravação em cache de 1 hora = 4 tokens 1 token de acerto de cache = 0,2 token |
| Claude 3.7 Sonnet da Anthropic (descontinuado) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token |
| Claude 3.5 Sonnet v2 da Anthropic (descontinuado) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token |
| Claude 3.5 Haiku da Anthropic | 2.000 | 10 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token ocorrência em cache = 0,1 token |
| Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token |
| Haiku do Claude 3 da Anthropic | 4.200 | 5 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token ocorrência em cache = 0,1 token |
| Claude 3.5 Sonnet da Anthropic (descontinuado) | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token |
Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir Provisioned Throughput para modelos da Anthropic, entre em contato com seu Google Cloud representante de conta.
Modelos abertos
A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos abertos que oferecem suporte à capacidade de processamento provisionada.
| Modelo | Capacidade de processamento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
|---|---|---|---|---|
|
Versão mais recente compatível: |
3.360 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Kimi K2 Thinking (em inglês) Versão mais recente compatível: |
1.680 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
1.400 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 1 token |
|
Versão mais recente compatível: |
2.800 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
4.035 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 3 tokens |
|
Versão mais recente compatível: |
3.360 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
11.205 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
14.405 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
4.035 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
1.010 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens |
|
Versão mais recente compatível: |
6.725 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens |
|
Versão mais recente compatível: |
6.725 | 1 | 1 | 1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens |
Recursos disponíveis para modelos do Google e abertos
A tabela a seguir lista os recursos disponíveis com a capacidade de transmissão provisionada para modelos do Google e modelos abertos:
| Capacidade | Modelos do Google | Modelos abertos (prévia) |
|---|---|---|
| Fazer um pedido pelo console do Google Cloud | Sim | Sim |
| Suporta endpoints globais | Consulte Suporte a modelos de endpoint global. | Consulte Suporte a modelos de endpoint global. |
| Suporte a modelos ajustados de forma supervisionada | Sim | Não |
| Suporte ao uso de chaves de API | Sim | Não |
| Integrado ao armazenamento em cache de contexto implícito | Sim | Não relevante |
| Integração com armazenamento em cache de contexto explícito | Sim | Não relevante |
| Processamento de ML | Disponível em regiões específicas. Para mais detalhes, consulte Capacidade de processamento provisionada de zona única. | Não relevante |
| Termos de pedido disponíveis | 1 semana, 1 mês, 3 meses e 1 ano | 1 mês, 3 meses e 1 ano |
| Mudar a ordem no console | Sim | Não |
| Status do pedido: pendente de revisão, aprovado, ativo, expirado | Sim | Sim |
| Os excedentes transbordam para o pagamento por uso por padrão | Sim | Sim |
| Controle de cabeçalho da API: use "dedicated" para usar apenas a capacidade de processamento provisionada ou "shared" para usar apenas o pagamento por uso. | Sim | Sim |
| Monitoring: métricas, painéis e alertas | Sim | Sim |
Suporte ao modelo de endpoint global
O Provisioned Throughput é compatível com o endpoint global para modelos do Google e abertos.
O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.
Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.
Modelos do Google com suporte a endpoints globais
A tabela a seguir lista os modelos do Google em que a capacidade de processamento provisionada é compatível com o endpoint global:
| Modelo | Versão mais recente do modelo compatível |
|---|---|
| Gemini 3 Pro (pré-lançamento) | gemini-3-pro-preview |
| Imagem do Gemini 3 Pro (pré-lançamento) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Imagem do Gemini 2.5 Flash | gemini-2.5-flash-image |
| Gemini 2.5 Flash |
|
| Gemini 2.5 Flash-Lite |
|
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Modelos abertos com suporte a endpoints globais
A tabela a seguir lista os modelos abertos para os quais a taxa de transferência provisionada é compatível com o endpoint global:
| Modelo | Versão mais recente do modelo compatível |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
Suporte para modelos ajustados de forma supervisionada
O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste de detalhes supervisionado:
A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.
Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.
Por exemplo, o Provisioned Throughput comprado para
gemini-2.0-flash-lite-001em um projeto específico prioriza solicitações feitas de versões refinadas supervisionadas degemini-2.0-flash-lite-001criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.