Modelli Google
Il throughput riservato supporta solo i modelli che chiami direttamente
dal tuo progetto utilizzando l'ID modello specifico e non un alias del modello. Per utilizzare
il throughput riservato per effettuare chiamate API a un modello, devi utilizzare l'ID versione del modello specifico (ad esempio gemini-2.0-flash-001) e non un
alias della versione del modello.
Inoltre, il throughput di cui è stato eseguito il provisioning non supporta i modelli chiamati da altri prodotti Vertex AI, come Vertex AI Agents e Vertex AI Search. Ad esempio, se effettui chiamate API a Gemini 2.0 Flash durante l'utilizzo di Vertex AI Search, l'ordine di throughput di cui è stato eseguito il provisioning per Gemini 2.0 Flash non garantisce le chiamate effettuate da Vertex AI Search.
Il throughput di cui è stato eseguito il provisioning non supporta le chiamate di previsione batch.
La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli Google che supportano il throughput riservato. La velocità effettiva al secondo è definita come l'input del prompt e l'output generato in tutte le richieste al secondo.
Per scoprire quanti token richiede il tuo workload, consulta il tokenizzatore SDK o l'API countTokens.
| Modello | Throughput al secondo per GSU | Unità | Incremento minimo di acquisto di GSU | Tassi di esaurimento |
|---|---|---|---|---|
|
Ultima versione supportata: |
500 | Token | 1 |
Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 6 token 1 token di testo di ragionamento di output = 6 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token |
|
Ultima versione supportata: |
500 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 6 token 1 token di pensiero di output = 6 token 1 token di immagine di output = 60 token |
|
Ultima versione supportata: |
650 | Token | 1 |
Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 8 token 1 token di testo di ragionamento di output = 8 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 12 token 1 token di testo di ragionamento di output = 12 token |
|
Ultima versione supportata: |
2690 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 9 token 1 token di immagine di output = 100 token |
|
Ultima versione supportata (GA): Ultima versione supportata (anteprima): |
2690 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 4 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token |
|
Ultima versione supportata (GA): Ultima versione supportata (anteprima): |
8070 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 3 token 1 token di testo di risposta di output = 4 token 1 token di testo di ragionamento di output = 4 token |
Gemini 2.5 Flash con API Live Ultima versione supportata: |
1620 | Token | 1 | 1 token di testo di input = 1 token di testo di input 1 token audio di input = 6 token di testo di input 1 token video di input = 6 token di testo di input 1 token di memoria della sessione di input = 1 token di testo di input 1 token di testo di output = 4 token di testo di input 1 token audio di output = 24 token di testo di input |
|
Gemini 2.5 Flash con audio nativo dell'API Live Ultima versione supportata: |
1620 | Token | 1 |
1 token di testo di input = 1 token 1 token audio di input = 6 token 1 token video di input = 6 token 1 token immagine di input = 6 token 1 token di memoria della sessione di input = 1 token 1 token di testo di output = 4 token 1 token audio di output = 24 token |
|
Ultima versione supportata: |
3360 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 7 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
6720 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di output = 4 token |
Ultima versione supportata: |
0,0040 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video e audio di output = 2 secondi di video di output | ||
Ultima versione supportata: |
0,0080 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video+audio di output = 1,45 secondi di video di output | ||
Ultima versione supportata: |
0,0040 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video e audio di output = 2 secondi di video di output | ||
Ultima versione supportata: |
0,0080 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video+audio di output = 1,45 secondi di video di output | ||
Generazione con Imagen 4 Ultra
|
0,015 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
|
|
0,02 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Generazione rapida di Imagen 4
|
0,04 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
|
|
0,02 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
|
|
0,025 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
| Imagen 3 Fast | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Per informazioni sulle funzionalità e sui limiti di input o output di un modello, consulta la documentazione del modello.
Puoi eseguire l'upgrade ai nuovi modelli non appena vengono resi disponibili. Per informazioni su disponibilità e date di ritiro dei modelli, vedi Modelli Google.
Per saperne di più sulle località supportate, consulta Località disponibili.
Modelli di partner
La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli partner che supportano il throughput riservato. I modelli Claude vengono misurati in token al secondo, ovvero un totale di token di input e output in tutte le richieste al secondo.
| Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di esaurimento |
|---|---|---|---|---|
| Claude Opus 4.5 di Anthropic | 210 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Sonnet 4.5 di Anthropic | 350 | 25 | 1 | Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache di 5 minuti = 1,25 token 1 token di scrittura nella cache di 1 ora = 2 token 1 token di successo della cache = 0,1 token Almeno 200.000 token di input: 1 token di input = 2 token 1 token di output = 7,5 token 1 token di scrittura nella cache di 5 minuti = 2,5 token 1 token di scrittura nella cache di 1 ora = 4 token 1 token di successo della cache = 0,2 token |
| Claude Opus 4.1 di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Haiku 4.5 di Anthropic | 1050 | 8 | 1 | Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 ora = 2 token 1 token di successo della cache = 0,1 token |
| Claude Opus 4 di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Sonnet 4 di Anthropic | 350 | 25 | 1 | Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache di 5 minuti = 1,25 token 1 token di scrittura nella cache di 1 ora = 2 token 1 token di successo della cache = 0,1 token Almeno 200.000 token di input: 1 token di input = 2 token 1 token di output = 7,5 token 1 token di scrittura nella cache di 5 minuti = 2,5 token 1 token di scrittura nella cache di 1 ora = 4 token 1 token di successo della cache = 0,2 token |
| Claude 3.7 Sonnet di Anthropic (ritirato) | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di successo della cache = 0,1 token |
| Claude 3.5 Sonnet v2 di Anthropic (ritirato) | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di successo della cache = 0,1 token |
| Claude 3.5 Haiku di Anthropic | 2000 | 10 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude 3 Opus di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di successo della cache = 0,1 token |
| Claude 3 Haiku di Anthropic | 4200 | 5 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude 3.5 Sonnet di Anthropic (ritirato) | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache di 5 minuti = 1,25 token 1 token di successo della cache = 0,1 token |
Per informazioni sulle località supportate, vedi Disponibilità della regione Anthropic Claude. Per ordinare Provisioned Throughput per i modelli Anthropic, contatta il tuo Google Cloud rappresentante dell'account.
Modelli aperti
La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli aperti che supportano il throughput riservato.
| Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di esaurimento |
|---|---|---|---|---|
|
Ultima versione supportata: |
3360 | 1 | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1680 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1400 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 1 token |
|
Ultima versione supportata: |
2800 | 1 | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
4035 | 1 | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 3 token |
|
Ultima versione supportata: |
3360 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
11.205 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
14.405 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
4035 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1010 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
6725 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 8 token |
|
Ultima versione supportata: |
6725 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 8 token |
Funzionalità disponibili per Google e modelli aperti
La tabella seguente elenca le funzionalità disponibili con il throughput di cui è stato eseguito il provisioning per i modelli Google e i modelli open source:
| Capacità | Modelli Google | Modelli aperti (anteprima) |
|---|---|---|
| Ordina tramite la console Google Cloud | Sì | Sì |
| Supporta gli endpoint globali | Consulta Supporto del modello di endpoint globale. | Consulta Supporto del modello di endpoint globale. |
| Supporta i modelli ottimizzati supervisionati | Sì | No |
| Supporta l'utilizzo delle chiavi API | Sì | No |
| Integrato con la memorizzazione nella cache del contesto implicito | Sì | Non applicabile |
| Integrazione con la memorizzazione nella cache del contesto esplicito | Sì | Non applicabile |
| Elaborazione ML | Disponibile in regioni specifiche. Per maggiori dettagli, consulta Throughput riservato per una singola zona. | Non applicabile |
| Termini dell'ordine disponibili | 1 settimana, 1 mese, 3 mesi e 1 anno | 1 mese, 3 mesi e 1 anno |
| Modificare l'ordine dalla console | Sì | No |
| Stati dell'ordine: in attesa di revisione, approvato, attivo, scaduto | Sì | Sì |
| Superamento riportato al pagamento a consumo per impostazione predefinita | Sì | Sì |
| Controllo dell'intestazione API: utilizza "dedicated" per utilizzare solo la velocità effettiva di provisioning o "shared" per utilizzare solo il pagamento a consumo | Sì | Sì |
| Monitoraggio: metriche, dashboard e avvisi | Sì | Sì |
Supporto del modello di endpoint globale
La capacità di trasmissione sottoposta a provisioning supporta l'endpoint globale per i modelli Google e i modelli aperti.
Il traffico che supera la quota di throughput di cui è stato eseguito il provisioning utilizza l'endpoint globale per impostazione predefinita.
Per assegnare il throughput di cui è stato eseguito il provisioning all'endpoint globale di un modello,
seleziona global come regione quando effettui un ordine di throughput di cui è stato eseguito il provisioning.
Modelli Google con supporto degli endpoint globali
La tabella seguente elenca i modelli Google per i quali il throughput riservato supporta l'endpoint globale:
| Modello | Ultima versione del modello supportata |
|---|---|
| Gemini 3 Pro (anteprima) | gemini-3-pro-preview |
| Gemini 3 Pro Image (anteprima) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash | |
| Gemini 2.5 Flash-Lite | |
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Modelli aperti con supporto degli endpoint globali
La tabella seguente elenca i modelli aperti per i quali il throughput riservato supporta l'endpoint globale:
| Modello | Ultima versione del modello supportata |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
Supporto del modello ottimizzato con supervisione
Per i modelli Google che supportano la messa a punto supervisionata, è supportato quanto segue:
Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate con supervisione di questi modelli.
Gli endpoint del modello ottimizzato con supervisione e il relativo conteggio del modello di base vengono conteggiati ai fini della stessa quota di throughput riservato.
Ad esempio, il throughput di cui è stato eseguito il provisioning acquistato per
gemini-2.0-flash-lite-001per un progetto specifico assegna la priorità alle richieste effettuate da versioni ottimizzate e supervisionate digemini-2.0-flash-lite-001create all'interno di quel progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.