Modelos Google
O débito processado só é compatível com modelos que chama diretamente
a partir do seu projeto através do ID do modelo específico e não de um alias do modelo. Para usar o débito processado para fazer chamadas API a um modelo, tem de usar o ID da versão do modelo específico (por exemplo, gemini-2.0-flash-001
) e não um alias da versão do modelo.
Além disso, o débito aprovisionado não suporta modelos que são chamados por outros produtos do Vertex AI, como os agentes do Vertex AI e o Vertex AI Search. Por exemplo, se fizer chamadas de API para o Gemini 2.0 Flash enquanto usa o Vertex AI Search, a sua encomenda de débito processado provisionado para o Gemini 2.0 Flash não garante as chamadas feitas pelo Vertex AI Search.
O débito aprovisionado não suporta chamadas de previsão em lote.
A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para os modelos Google que suportam o débito aprovisionado. O seu débito por segundo é definido como a entrada de comandos e a saída gerada em todos os pedidos por segundo.
Para saber quantos tokens a sua carga de trabalho requer, consulte o tokenizador do SDK ou a API countTokens.
Modelo | Débito por segundo por GSU | Unidades | Incremento mínimo de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Gemini 2.5 Flash com API Live Versão suportada mais recente: |
1620 | Tokens | 1 | 1 símbolo de texto de entrada = 1 símbolo de texto de entrada 1 símbolo de áudio de entrada = 6 símbolos de texto de entrada 1 símbolo de vídeo de entrada = 6 símbolos de texto de entrada 1 símbolo de memória da sessão de entrada = 1 símbolo de texto de entrada 1 símbolo de texto de saída = 4 símbolos de texto de entrada 1 símbolo de áudio de saída = 24 símbolos de texto de entrada |
Versão suportada mais recente: |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 9 tokens 1 token de imagem de saída = 100 tokens |
Versão suportada mais recente (GA): Versão mais recente suportada (pré-visualização): |
8070 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens |
Gemini 2.5 Flash com áudio nativo da API Live Versão mais recente suportada: |
1620 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de áudio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagem de entrada = 6 tokens 1 token de memória da sessão de entrada = 1 token 1 token de texto de saída = 4 tokens 1 token de áudio de saída = 24 tokens |
Versão suportada mais recente: |
650 | Tokens | 1 |
Menos ou igual a 200 000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Mais de 200 000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens |
Versão suportada mais recente (GA): Versão mais recente suportada (pré-visualização): |
2690 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens |
Versão suportada mais recente: |
3360 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens |
Versão suportada mais recente: |
6720 | Tokens | 1 |
1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens |
Versão suportada mais recente: |
0,0040 | Segundos de vídeo | 34 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
Segundos de vídeo e áudio | 67 | 1 segundo de vídeo+áudio de saída = 2 segundos de vídeo de saída | ||
Versão suportada mais recente: |
0,0080 | Segundos de vídeo | 17 | 1 segundo de vídeo de saída = 1 segundo de vídeo de saída |
Segundos de vídeo e áudio | 25 | 1 segundo de vídeo + áudio de saída = 1,45 segundos de vídeo de saída | ||
|
0,015 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
|
0,02 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
|
0,04 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
|
0,02 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
|
0,025 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
Imagen 3 Fast | 0,05 | Imagens | 1 | Apenas as imagens de saída são contabilizadas para a sua quota de débito processado. |
MedLM medium | 2000 | Carateres | 1 | 1 carater de entrada = 1 carater 1 carater de saída = 2 carateres |
MedLM large | 200 | Carateres | 1 | 1 carater de entrada = 1 carater 1 carater de saída = 3 carateres |
MedLM large 1.5 | 200 | Carateres | 1 | 1 carater de entrada = 1 carater 1 carater de saída = 3 carateres |
Para ver informações sobre as capacidades e os limites de entrada ou saída de um modelo, consulte a documentação do modelo.
Pode atualizar para novos modelos à medida que são disponibilizados. Para informações sobre a disponibilidade e as datas de descontinuação dos modelos, consulte Modelos Google.
Para mais informações sobre as localizações suportadas, consulte o artigo Localizações disponíveis.
Compatibilidade com o modelo de ponto final global
O débito processado suporta o ponto final global para os seguintes modelos:
Modelo | Versão do modelo suportada mais recente |
---|---|
Imagem do Gemini 2.5 Flash | gemini-2.5-flash-image |
Gemini 2.5 Flash-Lite |
|
Gemini 2.5 Pro | gemini-2.5-pro |
Gemini 2.5 Flash |
|
Gemini 2.0 Flash | gemini-2.0-flash-001 |
Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
O tráfego que excede a quota de débito processado aprovisionado usa o ponto final global por predefinição.
Para atribuir débito processado provisionado ao ponto final global de um modelo,
selecione global
como a região quando fizer um pedido de débito processado provisionado.
Suporte de modelo ajustado com precisão supervisionado
O seguinte é suportado para modelos Google que suportam o ajuste fino supervisionado:
O débito processado pode ser aplicado a modelos base e a versões otimizadas supervisionadas desses modelos base.
Os pontos finais do modelo com ajuste fino supervisionado e a respetiva quantidade de modelos base contam para a mesma quota de débito processado.
Por exemplo, o débito processado comprado para
gemini-2.0-flash-lite-001
para um projeto específico prioriza os pedidos feitos a partir de versões com ajuste fino supervisionado degemini-2.0-flash-lite-001
criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.
Modelos de parceiros
A tabela seguinte mostra o débito, o incremento de compra e as taxas de redução para modelos de parceiros que suportam o débito aprovisionado. Os modelos Claude são medidos em tokens por segundo, que são definidos como um total de tokens de entrada e saída em todos os pedidos por segundo.
Modelo | Débito por GSU (tokens/seg) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Claude Sonnet 4.5 da Anthropic | 350 | 25 | 1 | Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache = 1,25 tokens 1 token de acerto da cache = 0,1 token Igual ou superior a 200 000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação na cache = 2,5 tokens 1 token de acerto da cache = 0,2 token |
Claude Opus 4.1 da Anthropic | 70 | 35 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude Haiku 4.5 da Anthropic | 1050 | 8 | 1 | Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache = 1,25 tokens 1 token de acerto na cache = 0,1 token |
Claude Opus 4 da Anthropic | 70 | 35 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude Sonnet 4 da Anthropic | 350 | 25 | 1 | Menos de 200 000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação na cache = 1,25 tokens 1 token de acerto da cache = 0,1 token Igual ou superior a 200 000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação na cache = 2,5 tokens 1 token de acerto da cache = 0,2 token |
Claude 3.7 Sonnet da Anthropic | 350 | 25 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude 3.5 Sonnet v2 da Anthropic (descontinuado) | 350 | 25 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude 3.5 Haiku da Anthropic | 2000 | 10 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude 3 Haiku da Anthropic | 4200 | 5 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Claude 3.5 Sonnet da Anthropic (descontinuado) | 350 | 25 | 1 | 1 símbolo de entrada = 1 símbolo 1 símbolo de saída = 5 símbolos 1 símbolo de gravação na cache = 1,25 símbolos 1 símbolo de acerto na cache = 0,1 símbolo |
Para informações sobre as localizações suportadas, consulte a disponibilidade da região do Anthropic Claude. Para encomendar o débito processado provisionado para modelos da Anthropic, contacte o seu Google Cloud representante da conta.