Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada unidade de escala de IA generativa (GSU) e as taxas de burndown de cada modelo.

Modelos do Google

A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente do seu projeto usando o ID específico do modelo, e não um alias. Para usar a capacidade de processamento provisionada e fazer chamadas de API para um modelo, use o ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001) e não um alias de versão do modelo.

Além disso, o Provisioned Throughput não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, seu pedido de taxa de transferência provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.

O Provisioned Throughput não é compatível com chamadas de previsão em lote.

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.

Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.

Modelo Capacidade de processamento por segundo por GSU Unidades Incremento mínimo de compra de GSU Taxas de burndown

Gemini 2.5 Flash com a API Live

Versão mais recente compatível: gemini-live-2.5-flash

1620 Tokens 1 1 token de texto de entrada = 1 token de texto de entrada
1 token de áudio de entrada = 6 tokens de texto de entrada
1 token de vídeo de entrada = 6 tokens de texto de entrada
1 token de memória de sessão de entrada = 1 token de texto de entrada
1 token de texto de saída = 4 tokens de texto de entrada
1 token de áudio de saída = 24 tokens de texto de entrada

Imagem do Gemini 2.5 Flash

Versão mais recente compatível: gemini-2.5-flash-image

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de texto de saída = 9 tokens
1 token de imagem de saída = 100 tokens

Gemini 2.5 Flash-Lite

Versão mais recente compatível (GA): gemini-2.5-flash-lite

Versão mais recente compatível (pré-lançamento): gemini-2.5-flash-lite-preview-09-2025

8070 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 3 tokens
1 token de texto de resposta de saída = 4 tokens
1 token de texto de raciocínio de saída = 4 tokens

Gemini 2.5 Flash com áudio nativo da API Live

Versão mais recente compatível: gemini-live-2.5-flash-preview-native-audio-09-2025 (pré-lançamento)

1620 Tokens 1 1 token de texto de entrada = 1 token
1 token de áudio de entrada = 6 tokens
1 token de vídeo de entrada = 6 tokens
1 token de imagem de entrada = 6 tokens
1 token de memória de sessão de entrada = 1 token
1 token de texto de saída = 4 tokens
1 token de áudio de saída = 24 tokens

Gemini 2.5 Pro

Versão mais recente compatível: gemini-2.5-pro

650 Tokens 1 Menor ou igual a 200.000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de resposta de saída = 8 tokens
1 token de texto de raciocínio de saída = 8 tokens

Maior que 200.000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagem de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de áudio de entrada = 2 tokens
1 token de texto de resposta de saída = 12 tokens
1 token de texto de raciocínio de saída = 12 tokens

Gemini 2.5 Flash

Versão mais recente compatível (GA): gemini-2.5-flash

Versão mais recente compatível (pré-lançamento): gemini-2.5-flash-preview-09-2025

2690 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 4 tokens
1 token de texto de resposta de saída = 9 tokens
1 token de texto de raciocínio de saída = 9 tokens

Gemini 2.0 Flash

Versão mais recente compatível: gemini-2.0-flash-001

3360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 7 tokens
1 token de texto de saída = 4 tokens

Gemini 2.0 Flash-Lite

Versão mais recente compatível: gemini-2.0-flash-lite-001

6720 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de saída = 4 tokens

Veo 3

Versão mais recente compatível: veo-3.0-generate-001

0,0040 Segundos de vídeo 34 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de vídeo + áudio 67 1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída

Veo 3 Fast

Versão mais recente compatível: veo-3.0-fast-generate-001

0,0080 Segundos de vídeo 17 1 segundo de vídeo de saída = 1 segundo de vídeo de saída
Segundos de vídeo + áudio 25 1 segundo de vídeo+áudio de saída = 1,45 segundo de vídeo de saída

Geração do Imagen 4 Ultra

imagen-4.0-ultra-generate-001

0,015 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Geração do Imagen 4

imagen-4.0-generate-001

0,02 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Geração rápida do Imagen 4

imagen-4.0-fast-generate-001

0,04 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast 0,05 Imagens 1 Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
MedLM medium 2.000 Caracteres 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 2 caracteres
MedLM grande 200 Caracteres 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
MedLM grande 1.5 200 Caracteres 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres

Para informações sobre as capacidades de um modelo e limites de entrada ou saída, consulte a documentação do modelo.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Suporte ao modelo de endpoint global

A capacidade de processamento provisionada é compatível com o endpoint global para os seguintes modelos:

Modelo Versão mais recente do modelo compatível
Imagem do Gemini 2.5 Flash gemini-2.5-flash-image
Gemini 2.5 Flash-Lite
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.

Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.

Suporte para modelos ajustados de forma supervisionada

O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste de detalhes supervisionado:

  • A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.

  • Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.

    Por exemplo, o Provisioned Throughput comprado para gemini-2.0-flash-lite-001 em um projeto específico prioriza solicitações feitas de versões supervisionadas e refinadas de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.

Modelos de parceiros

A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown
Claude Sonnet 4.5 da Anthropic 350 25 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de acerto de cache = 0,1 token

Maior ou igual a 200.000 tokens de entrada:
1 token de entrada = 2 tokens
1 token de saída = 7,5 tokens
1 token de gravação em cache = 2,5 tokens
1 token de ocorrência em cache = 0,2 token
Claude Opus 4.1 da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude Haiku 4.5 da Anthropic 1050 8 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude Opus 4 da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude Sonnet 4 da Anthropic 350 25 1 Menos de 200.000 tokens de entrada:
1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de acerto de cache = 0,1 token

Maior ou igual a 200.000 tokens de entrada:
1 token de entrada = 2 tokens
1 token de saída = 7,5 tokens
1 token de gravação em cache = 2,5 tokens
1 token de ocorrência em cache = 0,2 token
Claude 3.7 Sonnet da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude 3.5 Sonnet v2 da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude 3.5 Haiku da Anthropic 2.000 10 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude 3 Opus da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Haiku do Claude 3 da Anthropic 4.200 5 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado) 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação em cache = 1,25 token
1 token de ocorrência em cache = 0,1 token

Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir Provisioned Throughput para modelos da Anthropic, entre em contato com seu Google Cloud representante de conta.

A seguir