Modelli supportati

Le seguenti tabelle mostrano i modelli che supportano il throughput di cui è stato eseguito il provisioning, il throughput per ogni unità della scala di AI generativa (GSU) e i tassi di esaurimento per ogni modello.

Modelli Google

Il throughput riservato supporta solo i modelli che chiami direttamente dal tuo progetto utilizzando l'ID modello specifico e non un alias del modello. Per utilizzare il throughput riservato per effettuare chiamate API a un modello, devi utilizzare l'ID versione del modello specifico (ad esempio gemini-2.0-flash-001) e non un alias della versione del modello.

Anche se il throughput di cui è stato eseguito il provisioning garantisce la capacità per le richieste del modello, non include né bypassa le quote per altri strumenti che potresti utilizzare, ad esempio Grounding. A seconda delle dimensioni del carico di lavoro, potresti dover richiedere una quota aggiuntiva per questi strumenti separatamente.

Inoltre, il throughput di cui è stato eseguito il provisioning non supporta i modelli chiamati da altri prodotti Vertex AI, come Vertex AI Agents e Vertex AI Search. Ad esempio, se effettui chiamate API a Gemini 2.0 Flash durante l'utilizzo di Vertex AI Search, l'ordine di throughput di cui è stato eseguito il provisioning per Gemini 2.0 Flash non garantisce le chiamate effettuate da Vertex AI Search.

Il throughput di cui è stato eseguito il provisioning non supporta le chiamate di previsione batch.

La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli Google che supportano il throughput riservato. La velocità effettiva al secondo è definita come l'input del prompt e l'output generato in tutte le richieste al secondo.

Per scoprire quanti token richiede il tuo workload, consulta il tokenizzatore SDK o l'API countTokens.

Modello	Throughput al secondo per GSU	Unità	Incremento minimo di acquisto di GSU	Tassi di esaurimento
Gemini 3 Flash Ultima versione supportata: `gemini-3-flash-preview` (anteprima)	2015	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 2 token 1 token di memorizzazione nella cache di testo, immagine e video di input = 0,1 token 1 token di memorizzazione nella cache di audio di input = 0,2 token 1 token di testo di risposta di output = 6 token 1 token di testo di ragionamento di output = 6 token
Gemini 3 Pro Ultima versione supportata: `gemini-3-pro-preview` (anteprima)	500	Token	1	Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 6 token 1 token di testo di ragionamento di output = 6 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token
Gemini 3 Pro Image Ultima versione supportata: `gemini-3-pro-image-preview` (anteprima)	500	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 6 token 1 token di pensiero di output = 6 token 1 token di immagine di output = 60 token
Gemini 2.5 Pro Ultima versione supportata: `gemini-2.5-pro`	650	Token	1	Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 8 token 1 token di testo di ragionamento di output = 8 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 12 token 1 token di testo di ragionamento di output = 12 token
Gemini 2.5 Flash Image Ultima versione supportata: `gemini-2.5-flash-image`	2690	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 9 token 1 token di immagine di output = 100 token
Gemini 2.5 Flash Ultima versione supportata (GA): `gemini-2.5-flash` Ultima versione supportata (anteprima): `gemini-2.5-flash-preview-09-2025`	2690	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token video di input = 1 token 1 token audio di input = 4 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token
Gemini 2.5 Flash-Lite Ultima versione supportata (GA): `gemini-2.5-flash-lite` Ultima versione supportata (anteprima): `gemini-2.5-flash-lite-preview-09-2025`	8070	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 3 token 1 token di testo di risposta di output = 4 token 1 token di testo di ragionamento di output = 4 token
Gemini 2.5 Flash con audio nativo dell'API Gemini Live Ultima versione supportata: `gemini-live-2.5-flash-native-audio`	1620	Token	1	1 token di testo di input = 1 token 1 token audio di input = 6 token 1 token video di input = 6 token 1 token immagine di input = 6 token 1 token di memoria della sessione di input = 1 token 1 token di testo di output = 4 token 1 token audio di output = 24 token
Gemini 2.0 Flash Ultima versione supportata: `gemini-2.0-flash-001`	3360	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 7 token 1 token di testo di output = 4 token
Gemini 2.0 Flash-Lite Ultima versione supportata: `gemini-2.0-flash-lite-001`	6720	Token	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di output = 4 token
Anteprima di Veo 3.1 Ultima versione supportata: `veo-3.1-generate-001` (anteprima)	0,0040	Secondi di video	1	1 secondo di video di output = 1 secondo di video di output
	0,0040	Secondi di video e audio	1	1 secondo di video+audio di output = 2 secondi di video di output
Anteprima rapida di Veo 3.1 Ultima versione supportata: `veo-3.1-fast-generate-001` (anteprima)	0,0080	Secondi di video	1	1 secondo di video di output = 1 secondo di video di output
	0,0080	Secondi di video e audio	1	1 secondo di video+audio di output = 1,45 secondi di video di output
Veo 3 Ultima versione supportata: `veo-3.0-generate-001`	0,0040	Secondi di video	1	1 secondo di video di output = 1 secondo di video di output
Veo 3 Ultima versione supportata: `veo-3.0-generate-001`	0,0040	Secondi di video e audio	1	1 secondo di video+audio di output = 2 secondi di video di output
Veo 3 Fast Ultima versione supportata: `veo-3.0-fast-generate-001`	0,0080	Secondi di video	1	1 secondo di video di output = 1 secondo di video di output
	0,0080	Secondi di video e audio	1	1 secondo di video+audio di output = 1,45 secondi di video di output
Imagen 4 Ultra Generate `imagen-4.0-ultra-generate-001`	0,015	Immagini	1	Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
Imagen 4 Generate `imagen-4.0-generate-001`	0,02	Immagini	1	Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
Generazione rapida di Imagen 4 `imagen-4.0-fast-generate-001`	0,04	Immagini	1	Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Immagini	1	Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Immagini	1	Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.
Imagen 3 Fast	0,05	Immagini	1	Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning.

Per informazioni sulle funzionalità e sui limiti di input o output di un modello, consulta la documentazione del modello.

Richiedi l'accesso:il modello gemini-live-2.5-flash è in GA privata. Per informazioni sull'accesso a questa versione, consulta la pagina di richiesta di accesso.

Puoi eseguire l'upgrade ai nuovi modelli non appena vengono resi disponibili. Per informazioni su disponibilità e date di ritiro dei modelli, vedi Modelli Google.

Per saperne di più sulle località supportate, consulta Località disponibili.

Modelli di partner

La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli partner che supportano il throughput riservato. I modelli Claude vengono misurati in token al secondo, ovvero un totale di token di input e output in tutte le richieste al secondo.

Modello	Throughput per GSU (token/sec)	Acquisto minimo di GSU	Incremento dell'acquisto di GSU	Tassi di esaurimento
Claude Opus 4.5 di Anthropic	210	35	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di hit della cache = 0,1 token
Claude Sonnet 4.5 di Anthropic	350	25	1	Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache di 5 minuti = 1,25 token 1 token di scrittura nella cache di 1 ora = 2 token 1 token di hit della cache = 0,1 token Almeno 200.000 token di input: 1 token di input = 2 token 1 token di output = 7,5 token 1 token di scrittura nella cache di 5 minuti = 2,5 token 1 token di scrittura nella cache di 1 ora = 4 token 1 token di hit della cache = 0,2 token
Claude Opus 4.1 di Anthropic	70	35	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di hit della cache = 0,1 token
Claude Haiku 4.5 di Anthropic	1050	8	1	Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 ora = 2 token 1 token di hit della cache = 0,1 token
Claude Opus 4 di Anthropic	70	35	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 ora = 2 token 1 token di hit della cache = 0,1 token
Claude Sonnet 4 di Anthropic	350	25	1	Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache di 5 minuti = 1,25 token 1 token di scrittura nella cache di 1 ora = 2 token 1 token di hit della cache = 0,1 token Almeno 200.000 token di input: 1 token di input = 2 token 1 token di output = 7,5 token 1 token di scrittura nella cache di 5 minuti = 2,5 token 1 token di scrittura nella cache di 1 ora = 4 token 1 token di hit della cache = 0,2 token
Claude 3.7 Sonnet di Anthropic (ritirato)	350	25	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di hit della cache = 0,1 token
Claude 3.5 Sonnet v2 di Anthropic (ritirato)	350	25	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di hit della cache = 0,1 token
Claude 3.5 Haiku di Anthropic (ritirato)	2000	10	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 ora = 2 token 1 token di hit della cache = 0,1 token
Claude 3 Opus di Anthropic	70	35	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di hit della cache = 0,1 token
Claude 3 Haiku di Anthropic	4200	5	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di hit della cache = 0,1 token
Claude 3.5 Sonnet di Anthropic (ritirato)	350	25	1	1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di hit della cache = 0,1 token

Per informazioni sulle località supportate, vedi Disponibilità delle regioni di Anthropic Claude. Per ordinare Provisioned Throughput per i modelli Anthropic, contatta il tuo Google Cloud rappresentante dell'account.

Modelli aperti

La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli aperti che supportano il throughput riservato.

Modello	Throughput per GSU (token/sec)	Acquisto minimo di GSU	Incremento dell'acquisto di GSU	Tassi di esaurimento
DeepSeek-OCR Ultima versione supportata: `deepseek-ocr-maas`	3360	1	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 4 token
DeepSeek-V3.2 Ultima versione supportata: `deepseek-v3.2-maas`	1680	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
Kimi K2 Thinking Ultima versione supportata: `kimi-k2-thinking-maas`	1680	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
Llama 3.3 70B Ultima versione supportata: `llama-3.3-70b-instruct-maas`	1400	1	1	1 token di testo di input = 1 token 1 token di testo di output = 1 token
Llama 4 Maverick 17B-128E Ultima versione supportata: `llama-4-maverick-17b-128e-instruct-maas`	2800	1	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 4 token
Llama 4 Scout 17B-16E Ultima versione supportata: `llama-4-scout-17b-16e-instruct-maas`	4035	1	1	1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 3 token
MiniMax M2 Ultima versione supportata: `minimax-m2-maas`	3360	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
OpenAI gpt-oss 120B Ultima versione supportata: `gpt-oss-120b-maas`	11.205	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
OpenAI gpt-oss 20B Ultima versione supportata: `gpt-oss-20b-maas`	14.405	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
Qwen3 235B Ultima versione supportata: `qwen3-235b-a22b-instruct-2507-maas`	4035	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
Qwen3 Coder Ultima versione supportata: `qwen3-coder-480b-a35b-instruct-maas`	1010	1	1	1 token di testo di input = 1 token 1 token di testo di output = 4 token
Qwen3-Next-80B Instruct Ultima versione supportata: `qwen3-next-80b-a3b-instruct-maas`	6725	1	1	1 token di testo di input = 1 token 1 token di testo di output = 8 token
Qwen3-Next-80B Thinking Ultima versione supportata: `qwen3-next-80b-a3b-thinking-maas`	6725	1	1	1 token di testo di input = 1 token 1 token di testo di output = 8 token

Funzionalità disponibili per Google e modelli aperti

La tabella seguente elenca le funzionalità disponibili con il throughput di cui è stato eseguito il provisioning per i modelli Google e i modelli open source:

Capacità	Modelli Google	Modelli aperti (anteprima)
Ordina tramite la console Google Cloud	Sì	Sì
Supporta gli endpoint globali	Consulta Supporto del modello di endpoint globale.	Consulta Supporto del modello di endpoint globale.
Supporta i modelli ottimizzati supervisionati	Sì	No
Supporta l'utilizzo delle chiavi API	Sì	No
Integrato con la memorizzazione nella cache del contesto implicito	Sì	Non applicabile
Integrazione con la memorizzazione nella cache del contesto esplicito	Sì	Non applicabile
Elaborazione ML	Disponibile in regioni specifiche. Per maggiori dettagli, consulta Throughput riservato per una singola zona.	Non applicabile
Termini dell'ordine disponibili	1 settimana, 1 mese, 3 mesi e 1 anno	1 mese, 3 mesi e 1 anno
Modificare l'ordine dalla console	Sì	No
Stati dell'ordine: in attesa di revisione, approvato, attivo, scaduto	Sì	Sì
Superamento riportato al pagamento a consumo per impostazione predefinita	Sì	Sì
Controllo dell'intestazione API: utilizza "dedicated" per utilizzare solo la velocità effettiva di provisioning o "shared" per utilizzare solo il pagamento a consumo	Sì	Sì
Monitoraggio: metriche, dashboard e avvisi	Sì	Sì

Supporto del modello di endpoint globale

La capacità di trasmissione sottoposta a provisioning supporta l'endpoint globale per i modelli Google e i modelli aperti.

Il traffico che supera la quota di throughput di cui è stato eseguito il provisioning utilizza l'endpoint globale per impostazione predefinita.

Per assegnare il throughput di cui è stato eseguito il provisioning all'endpoint globale di un modello, seleziona global come regione quando effettui un ordine di throughput di cui è stato eseguito il provisioning.

Modelli Google con supporto degli endpoint globali

La tabella seguente elenca i modelli Google per i quali il throughput riservato supporta l'endpoint globale:

Modello	Ultima versione del modello supportata
Gemini 3 Flash (anteprima)	`gemini-3-flash-preview`
Gemini 3 Pro (anteprima)	`gemini-3-pro-preview`
Gemini 3 Pro Image (anteprima)	`gemini-3-pro-image-preview`
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash Image	`gemini-2.5-flash-image`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (anteprima) `gemini-2.5-flash` (GA)
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (anteprima) `gemini-2.5-flash-lite` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

Modelli aperti con supporto degli endpoint globali

La tabella seguente elenca i modelli aperti per i quali il throughput riservato supporta l'endpoint globale:

Modello	Ultima versione del modello supportata
DeepSeek-OCR	`deepseek-ocr-maas`
DeepSeek-V3.2	`deepseek-v3.2-maas`
Kimi K2 Thinking	`kimi-k2-thinking-maas`
MiniMax M2	`minimax-m2-maas`
OpenAI gpt-oss 120B	`gpt-oss-120b-maas`
Qwen3-Next-80B Instruct	`qwen3-next-80b-a3b-instruct-maas`
Qwen3-Next-80B Thinking	`qwen3-next-80b-a3b-thinking-maas`

Supporto del modello ottimizzato con supervisione

Per i modelli Google che supportano la messa a punto supervisionata, è supportato quanto segue:

Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate con supervisione di questi modelli.
Gli endpoint del modello ottimizzato con supervisione e il relativo conteggio del modello di base vengono conteggiati ai fini della stessa quota di throughput riservato.

Ad esempio, il throughput di cui è stato eseguito il provisioning acquistato per gemini-2.0-flash-lite-001 per un progetto specifico assegna la priorità alle richieste effettuate da versioni di gemini-2.0-flash-lite-001 sottoposte a perfezionamento supervisionato create all'interno di quel progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.

Passaggi successivi

Calcola i requisiti di throughput riservato.

Modelli supportati Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli Google

Modelli di partner

Modelli aperti

Funzionalità disponibili per Google e modelli aperti

Supporto del modello di endpoint globale

Modelli Google con supporto degli endpoint globali

Modelli aperti con supporto degli endpoint globali

Supporto del modello ottimizzato con supervisione

Passaggi successivi

Modelli supportati