Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada unidade de escala de IA generativa (GSU) e as taxas de burndown de cada modelo.

A Capacidade de Processamento Provisionada não é compatível com chamadas de previsão em lote.

Modelos do Google

Atenção:a partir de 6 de março de 2026, gemini-2.0-flash-001 e gemini-2.0-flash-lite-001 estarão disponíveis apenas para clientes atuais. Isso inclui a disponibilização do modelo e a Capacidade de Processamento Provisionada. Os novos projetos devem usar gemini-2.5-flash, gemini-2.5-flash-lite ou versões mais recentes.

A capacidade de processamento provisionada só é compatível com modelos que você chama diretamente do seu projeto usando o ID específico do modelo, e não um alias. Para usar a Capacidade de Processamento Provisionada e fazer chamadas de API para um modelo, use o ID específico da versão do modelo (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.

Embora a Capacidade de Processamento Provisionada garanta a capacidade para as solicitações do seu modelo, ela não inclui nem ignora cotas para outras ferramentas que você possa usar, como Embasamento. Dependendo do tamanho da sua carga de trabalho, talvez seja necessário solicitar mais cota para essas ferramentas separadamente.

Além disso, a Capacidade de Processamento Provisionada não oferece suporte a modelos chamados por outros produtos da Vertex AI, como Agentes da Vertex AI e Pesquisa de Agentes. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Pesquisa de agentes, seu pedido de Capacidade de Processamento Provisionada para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Pesquisa de agentes.

A capacidade de processamento provisionada para modelos de prévia é excluída do Contrato de nível de serviço de inferência on-line do Gemini na Vertex AI.

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. A capacidade de processamento por segundo é definida como a entrada de comando e a saída gerada em todas as solicitações por segundo.

Para saber quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.

Modelo	Capacidade de processamento por segundo por GSU	Unidades	Incremento mínimo de compra de GSU	Taxas de burndown
Gemini 3.1 Flash-Lite Versão mais recente compatível: `gemini-3.1-flash-lite`	4030	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 2 tokens 1 token de cache de texto de entrada = 0,1 token 1 token de cache de imagem de entrada = 0,1 token 1 token de cache de vídeo de entrada = 0,1 token 1 token de cache de áudio de entrada = 0,2 token 1 token de texto de saída = 6 tokens
Criação de imagens do Gemini 3.1 Flash Versão mais recente compatível: `gemini-3.1-flash-image-preview` (pré-lançamento)	2015	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 6 tokens 1 token de imagem de saída = 120 tokens
Gemini 3.1 Pro Versão mais recente compatível: `gemini-3.1-pro-preview` (pré-lançamento)	500	Tokens	1	Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de cache de entrada = 0,1 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de cache de entrada = 0,2 token 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 3 Flash Versão mais recente compatível: `gemini-3-flash-preview` (pré-lançamento)	2015	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 2 tokens 1 token de texto, imagem, vídeo em cache de entrada = 0,1 token 1 token de áudio em cache de entrada = 0,2 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens
Gemini 3 Pro Versão mais recente compatível: `gemini-3-pro-preview` (pré-lançamento)	500	Tokens	1	Menos de ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 6 tokens 1 token de texto de raciocínio de saída = 6 tokens Mais de 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 3 Pro Image Versão mais recente compatível: `gemini-3-pro-image-preview` (pré-lançamento)	500	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 6 tokens 1 token de pensamento de saída = 6 tokens 1 token de imagem de saída = 60 tokens
Gemini 2.5 Pro Versão mais recente compatível: `gemini-2.5-pro`	650	Tokens	1	Menor ou igual a 200.000 tokens de entrada: 1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de resposta de saída = 8 tokens 1 token de texto de raciocínio de saída = 8 tokens Maior que 200.000 tokens de entrada: 1 token de texto de entrada = 2 tokens 1 token de imagem de entrada = 2 tokens 1 token de vídeo de entrada = 2 tokens 1 token de áudio de entrada = 2 tokens 1 token de texto de resposta de saída = 12 tokens 1 token de texto de raciocínio de saída = 12 tokens
Criação de Imagens do Gemini 2.5 Flash Versão mais recente compatível: `gemini-2.5-flash-image`	2.690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 9 tokens 1 token de imagem de saída = 100 tokens
Gemini 2.5 Flash Versão mais recente compatível: `gemini-2.5-flash`	2690	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 4 tokens 1 token de texto de resposta de saída = 9 tokens 1 token de texto de raciocínio de saída = 9 tokens
Gemini 2.5 Flash-Lite Versão mais recente compatível (GA): `gemini-2.5-flash-lite` Versão mais recente compatível (pré-lançamento): `gemini-2.5-flash-lite-preview-09-2025`	8.070	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 3 tokens 1 token de texto de resposta de saída = 4 tokens 1 token de texto de raciocínio de saída = 4 tokens
Gemini 2.5 Flash com áudio nativo da API Gemini Live Versão mais recente compatível: `gemini-live-2.5-flash-native-audio`	1.620	Tokens	1	1 token de texto de entrada = 1 token 1 token de áudio de entrada = 6 tokens 1 token de vídeo de entrada = 6 tokens 1 token de imagem de entrada = 6 tokens 1 token de memória de sessão de entrada = 1 token 1 token de texto de saída = 4 tokens 1 token de áudio de saída = 24 tokens
Gemini 2.0 Flash Versão mais recente compatível: `gemini-2.0-flash-001`	3.360	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 7 tokens 1 token de texto de saída = 4 tokens
Gemini 2.0 Flash-Lite Versão mais recente compatível: `gemini-2.0-flash-lite-001`	6.720	Tokens	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de vídeo de entrada = 1 token 1 token de áudio de entrada = 1 token 1 token de texto de saída = 4 tokens
Geração do Veo 3.1 Lite Versão mais recente compatível: `veo-3.1-lite-generate-001`	0,0350	Segundos de vídeo (720p)	1	1 segundo de vídeo de saída (720p) = 1 segundo de vídeo de saída
		Segundos de vídeo + áudio (720p)	1	1 segundo de vídeo+áudio de saída (720p) = 1,75 segundo de vídeo de saída
		Segundos de vídeo (1080p)	1	1 segundo de vídeo de saída (1080p) = 1,75 segundo de vídeo de saída (720p)
		Segundos de vídeo+áudio (1080p)	1	1 segundo de vídeo+áudio de saída (1080p) = 2,33 segundos de vídeo de saída (720p)
Veo 3.1 Versão mais recente compatível: `veo-3.1-generate-001`	0,0040	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0040	Segundos de vídeo + áudio	1	1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída
Veo 3.1 Fast Versão mais recente compatível: `veo-3.1-fast-generate-001`	0,01	Segundos de vídeo (720p)	1	1 segundo de vídeo de saída (720p) = 1 segundo de vídeo de saída
		Segundos de vídeo + áudio (720p)	1	1 segundo de áudio e vídeo de saída (720p) = 1,30 segundo de vídeo de saída
		Segundos de vídeo (1080p)	1	1 segundo de vídeo de saída (1080p) = 1,30 segundo de vídeo de saída (720p)
		Segundos de vídeo + áudio (1080p)	1	1 segundo de vídeo + áudio de saída (1080p) = 1,60 segundo de vídeo de saída (720p)
		Segundos de vídeo (4K)	1	1 segundo de vídeo de saída (4K) = 3,40 segundos de vídeo de saída (720p)
		Segundos de vídeo + áudio (4K)	1	1 segundo de áudio e vídeo de saída (4K) = 4 segundos de vídeo de saída (720p)
Veo 3 Versão mais recente compatível: `veo-3.0-generate-001`	0,0040	Segundos de vídeo	1	1 segundo de vídeo de saída = 1 segundo de vídeo de saída
	0,0040	Segundos de vídeo + áudio	1	1 segundo de vídeo e áudio de saída = 2 segundos de vídeo de saída
Veo 3 Fast Versão mais recente compatível: `veo-3.0-fast-generate-001`	0,01	Segundos de vídeo (720p)	1	1 segundo de vídeo de saída (720p) = 1 segundo de vídeo de saída
		Segundos de vídeo + áudio (720p)	1	1 segundo de áudio e vídeo de saída (720p) = 1,30 segundo de vídeo de saída
		Segundos de vídeo (1080p)	1	1 segundo de vídeo de saída (1080p) = 1,30 segundo de vídeo de saída (720p)
		Segundos de vídeo + áudio (1080p)	1	1 segundo de vídeo + áudio de saída (1080p) = 1,60 segundo de vídeo de saída (720p)
Simulador virtual 001 `virtual-try-on-001`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Geração de imagens com o Imagen 4 Ultra `imagen-4.0-ultra-generate-001`	0,015	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Geração do Imagen 4 `imagen-4.0-generate-001`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Geração rápida do Imagen 4 `imagen-4.0-fast-generate-001`	0,04	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast `imagen-3.0-fast-generate-001`	0,05	Imagens	1	Apenas as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.

Para informações sobre as capacidades de um modelo e limites de entrada ou saída, consulte a documentação do modelo.

Solicitar acesso:o modelo gemini-live-2.5-flash está em disponibilidade geral privada. Para informações sobre o acesso a essa versão, consulte a página de solicitação de acesso.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Modelos de parceiros

A tabela a seguir mostra as taxas de capacidade de processamento, incremento de compra e burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos do Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo	Capacidade de processamento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
Claude Opus 4.7 da Anthropic	210	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude Sonnet 4.6, da Anthropic	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude Opus 4.6 da Anthropic	210	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude Opus 4.5 da Anthropic	210	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Anthropic Claude Sonnet 4.5	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 ocorrência em cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache de 5 minutos = 2,5 tokens 1 token de gravação em cache de 1 hora = 4 tokens 1 ocorrência em cache = 0,2 token
Claude Opus 4.1 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude Haiku 4.5, da Anthropic	1.050	8	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude Opus 4 da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude Sonnet 4, da Anthropic	350	25	1	Menos de 200.000 tokens de entrada: 1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 ocorrência em cache = 0,1 token Maior ou igual a 200.000 tokens de entrada: 1 token de entrada = 2 tokens 1 token de saída = 7,5 tokens 1 token de gravação em cache de 5 minutos = 2,5 tokens 1 token de gravação em cache de 1 hora = 4 tokens 1 ocorrência em cache = 0,2 token
Claude 3.7 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token
Anthropic Claude 3.5 Sonnet v2 (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token
Claude 3.5 Haiku da Anthropic (descontinuado)	2.000	10	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude 3 Opus da Anthropic	70	35	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token
Haiku do Claude 3 da Anthropic (descontinuado)	4.200	5	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação em cache de 5 minutos = 1,25 token 1 token de gravação em cache de 1 hora = 2 tokens 1 token de ocorrência em cache = 0,1 token
Claude 3.5 Sonnet da Anthropic (descontinuado)	350	25	1	1 token de entrada = 1 token 1 token de saída = 5 tokens 1 token de gravação de cache de 5 minutos = 1,25 token 1 token de ocorrência em cache = 0,1 token

Para informações sobre os locais compatíveis, consulte Disponibilidade regional do Anthropic Claude. Para pedir Capacidade de Processamento Provisionada para modelos da Anthropic, entre em contato com seu Google Cloud representante da conta.

Modelos abertos

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos abertos que oferecem suporte à capacidade de processamento provisionada.

Modelo	Capacidade de processamento por GSU (tokens/s)	Compra mínima de GSU	Incremento de compra de GSU	Taxas de burndown
DeepSeek-OCR Versão mais recente compatível: `deepseek-ocr-maas`	3.360	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens
DeepSeek-V3.2 Versão mais recente compatível: `deepseek-v3.2-maas`	1.680	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Gemma 4 26B A4B IT Versão mais recente compatível: `gemma-4-26b-a4b-it-maas`	6.725	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Kimi K2 Thinking Versão mais recente compatível: `kimi-k2-thinking-maas`	1.680	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Llama 3.3 70B Versão mais recente compatível: `llama-3.3-70b-instruct-maas`	1.400	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 1 token
Llama 4 Maverick 17B-128E Versão mais recente compatível: `llama-4-maverick-17b-128e-instruct-maas`	2.800	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 4 tokens
Llama 4 Scout 17B-16E Versão mais recente compatível: `llama-4-scout-17b-16e-instruct-maas`	4.035	1	1	1 token de texto de entrada = 1 token 1 token de imagem de entrada = 1 token 1 token de texto de saída = 3 tokens
MiniMax M2 Versão mais recente compatível: `minimax-m2-maas`	3.360	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
OpenAI gpt-oss 120B Versão mais recente compatível: `gpt-oss-120b-maas`	11.205	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
OpenAI gpt-oss 20B Versão mais recente compatível: `gpt-oss-20b-maas`	14.405	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3 235B Versão mais recente compatível: `qwen3-235b-a22b-instruct-2507-maas`	4.035	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3 Coder Versão mais recente compatível: `qwen3-coder-480b-a35b-instruct-maas`	1.010	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
Qwen3-Next-80B Instruct Versão mais recente compatível: `qwen3-next-80b-a3b-instruct-maas`	6.725	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens
Qwen3-Next-80B Thinking Versão mais recente compatível: `qwen3-next-80b-a3b-thinking-maas`	6.725	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 8 tokens
GLM 4.7 Versão mais recente compatível: `glm-4.7-maas`	1.685	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 4 tokens
GLM 5 Versão mais recente compatível: `glm-5-maas`	1.010	1	1	1 token de texto de entrada = 1 token 1 token de texto de saída = 3 tokens

Recursos disponíveis para modelos do Google e abertos

A tabela a seguir lista os recursos disponíveis com a Capacidade de Processamento Provisionada para modelos do Google e abertos:

Capacidade	Modelos do Google	Modelos abertos (prévia)
Fazer um pedido pelo console do Google Cloud	Sim	Sim
Suporta endpoints globais	Consulte Suporte a modelos de endpoint global.	Consulte Suporte a modelos de endpoint global.
Compatível com modelos ajustados de forma supervisionada	Sim	Não
Compatível com o uso de chaves de API	Sim	Não
Integrado ao armazenamento em cache de contexto implícito	Sim	Não relevante
Integração com armazenamento em cache de contexto explícito	Sim	Não relevante
Processamento de ML	Disponível em regiões específicas. Para mais detalhes, consulte Capacidade de processamento provisionada de zona única.	Não relevante
Termos de pedido disponíveis	1 semana, 1 mês, 3 meses e 1 ano	1 semana, 1 mês, 3 meses e 1 ano
Mudar a ordem no console	Sim	Não
Status do pedido: pendente de revisão, aprovado, ativo, expirado	Sim	Sim
Os excedentes transbordam para o pagamento por uso por padrão	Sim	Sim
Controle de cabeçalho da API: use "dedicated" para usar apenas a capacidade de processamento provisionada ou "shared" para usar apenas o pagamento por uso.	Sim	Sim
Monitoring: métricas, painéis e alertas	Sim	Sim

Suporte ao modelo de endpoint global

A Capacidade de Processamento Provisionada é compatível com o endpoint global para modelos do Google e abertos.

O tráfego que excede a cota de capacidade de processamento provisionada usa o endpoint global por padrão.

Para atribuir capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.

Modelos do Google com suporte a endpoints globais

A tabela a seguir lista os modelos do Google em que a capacidade de processamento provisionada é compatível com o endpoint global:

Modelo	Versão mais recente do modelo com suporte
Gemini 3.1 Flash-Lite	`gemini-3.1-flash-lite`
Criação de imagens do Gemini 3.1 Flash pré-lançamento	`gemini-3.1-flash-image-preview`
Gemini 3.1 Pro pré-lançamento	`gemini-3.1-pro-preview`
Gemini 3 Flash pré-lançamento	`gemini-3-flash-preview`
Gemini 3 Pro Image pré-lançamento	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash pré-lançamento	`gemini-2.5-flash-preview-09-2025`
Gemini 2.5 Flash-Lite pré-lançamento	`gemini-2.5-flash-lite-preview-09-2025`
Criação de Imagens do Gemini 2.5 Flash	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite`

Modelos abertos com suporte a endpoints globais

A tabela a seguir lista os modelos abertos para os quais a Capacidade de Processamento Provisionada é compatível com o endpoint global:

Modelo	Versão mais recente do modelo compatível
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`
GLM 4.7	`glm-4.7-maas`
GLM 5	`glm-5-maas`

Suporte para modelos ajustados de forma supervisionada

O seguinte é compatível com modelos do Google que oferecem suporte ao ajuste supervisionado:

A capacidade de processamento provisionada pode ser aplicada a modelos de base e versões ajustadas com supervisão deles.
Os endpoints de modelo ajustado supervisionado e a contagem do modelo de base correspondente são contabilizados na mesma cota de capacidade de processamento provisionada.

Por exemplo, a Capacidade de Processamento Provisionada comprada para gemini-2.0-flash-lite-001 em um projeto específico prioriza solicitações feitas de versões de gemini-2.0-flash-lite-001 com ajuste supervisionado criadas nesse projeto. Use o cabeçalho apropriado para controlar o comportamento do tráfego.

A seguir

Calcule os requisitos de capacidade de processamento provisionada.

Modelos compatíveis Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos do Google

Modelos de parceiros

Modelos abertos

Recursos disponíveis para modelos do Google e abertos

Suporte ao modelo de endpoint global

Modelos do Google com suporte a endpoints globais

Modelos abertos com suporte a endpoints globais

Suporte para modelos ajustados de forma supervisionada

A seguir

Modelos compatíveis