Modelli Google
Il throughput riservato supporta solo i modelli che chiami direttamente
dal tuo progetto utilizzando l'ID modello specifico e non un alias del modello. Per utilizzare
il throughput riservato per effettuare chiamate API a un modello, devi utilizzare l'ID versione del modello specifico (ad esempio gemini-2.0-flash-001) e non un
alias della versione del modello.
Inoltre, il throughput di cui è stato eseguito il provisioning non supporta i modelli chiamati da altri prodotti Vertex AI, come Vertex AI Agents e Vertex AI Search. Ad esempio, se effettui chiamate API a Gemini 2.0 Flash durante l'utilizzo di Vertex AI Search, l'ordine di throughput di cui è stato eseguito il provisioning per Gemini 2.0 Flash non garantisce le chiamate effettuate da Vertex AI Search.
Il throughput di cui è stato eseguito il provisioning non supporta le chiamate di previsione batch.
La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli Google che supportano il throughput riservato. La velocità effettiva al secondo è definita come l'input del prompt e l'output generato in tutte le richieste al secondo.
Per scoprire quanti token richiede il tuo workload, consulta il tokenizzatore SDK o l'API countTokens.
| Modello | Throughput al secondo per GSU | Unità | Incremento minimo di acquisto di GSU | Tassi di esaurimento |
|---|---|---|---|---|
|
Ultima versione supportata: |
500 | Token | 1 |
Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 6 token 1 token di testo di ragionamento di output = 6 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token |
|
Ultima versione supportata: |
500 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 6 token 1 token di pensiero di output = 6 token 1 token di immagine di output = 60 token |
|
Ultima versione supportata: |
650 | Token | 1 |
Meno di 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta di output = 8 token 1 token di testo di ragionamento di output = 8 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta di output = 12 token 1 token di testo di ragionamento di output = 12 token |
|
Ultima versione supportata: |
2690 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 9 token 1 token di immagine di output = 100 token |
|
Ultima versione supportata (GA): Ultima versione supportata (anteprima): |
2690 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 4 token 1 token di testo di risposta di output = 9 token 1 token di testo di ragionamento di output = 9 token |
|
Ultima versione supportata (GA): Ultima versione supportata (anteprima): |
8070 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 3 token 1 token di testo di risposta di output = 4 token 1 token di testo di ragionamento di output = 4 token |
|
Gemini 2.5 Flash con audio nativo dell'API Gemini Live Ultima versione supportata: |
1620 | Token | 1 |
1 token di testo di input = 1 token 1 token audio di input = 6 token 1 token video di input = 6 token 1 token immagine di input = 6 token 1 token di memoria della sessione di input = 1 token 1 token di testo di output = 4 token 1 token audio di output = 24 token |
|
Ultima versione supportata: |
3360 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token video di input = 1 token 1 token audio di input = 7 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
6720 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di output = 4 token |
Ultima versione supportata: |
0,0040 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video e audio di output = 2 secondi di video di output | ||
Ultima versione supportata: |
0,0080 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video+audio di output = 1,45 secondi di video di output | ||
Ultima versione supportata: |
0,0040 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video e audio di output = 2 secondi di video di output | ||
Ultima versione supportata: |
0,0080 | Secondi di video | 1 | 1 secondo di video di output = 1 secondo di video di output |
| Secondi di video e audio | 1 | 1 secondo di video+audio di output = 1,45 secondi di video di output | ||
Generazione con Imagen 4 Ultra
|
0,015 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
|
|
0,02 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Generazione rapida di Imagen 4
|
0,04 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
|
|
0,02 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
|
|
0,025 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
| Imagen 3 Fast | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput di cui è stato eseguito il provisioning. |
Per informazioni sulle funzionalità e sui limiti di input o output di un modello, consulta la documentazione del modello.
Puoi eseguire l'upgrade ai nuovi modelli non appena vengono resi disponibili. Per informazioni su disponibilità e date di ritiro dei modelli, consulta Modelli Google.
Per saperne di più sulle località supportate, consulta Località disponibili.
Modelli di partner
La tabella seguente mostra la velocità effettiva, l'incremento di acquisto e i tassi di esaurimento per i modelli partner che supportano il throughput riservato. I modelli Claude vengono misurati in token al secondo, ovvero un totale di token di input e output in tutte le richieste al secondo.
| Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di esaurimento |
|---|---|---|---|---|
| Claude Opus 4.5 di Anthropic | 210 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Sonnet 4.5 di Anthropic | 350 | 25 | 1 | Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache di 5 minuti = 1,25 token 1 token di scrittura nella cache di 1 ora = 2 token 1 token di successo della cache = 0,1 token Almeno 200.000 token di input: 1 token di input = 2 token 1 token di output = 7,5 token 1 token di scrittura nella cache di 5 minuti = 2,5 token 1 token di scrittura nella cache di 1 ora = 4 token 1 token di successo della cache = 0,2 token |
| Claude Opus 4.1 di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Haiku 4.5 di Anthropic | 1050 | 8 | 1 | Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache 5m = 1,25 token 1 token di scrittura nella cache 1h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Opus 4 di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude Sonnet 4 di Anthropic | 350 | 25 | 1 | Meno di 200.000 token di input: 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache di 5 minuti = 1,25 token 1 token di scrittura nella cache di 1 ora = 2 token 1 token di successo della cache = 0,1 token Almeno 200.000 token di input: 1 token di input = 2 token 1 token di output = 7,5 token 1 token di scrittura nella cache di 5 minuti = 2,5 token 1 token di scrittura nella cache di 1 ora = 4 token 1 token di successo della cache = 0,2 token |
| Claude 3.7 Sonnet di Anthropic (ritirato) | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache 5m = 1,25 token 1 token di successo della cache = 0,1 token |
| Claude 3.5 Sonnet v2 di Anthropic (ritirato) | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache 5m = 1,25 token 1 token di successo della cache = 0,1 token |
| Claude 3.5 Haiku di Anthropic | 2000 | 10 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude 3 Opus di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache 5m = 1,25 token 1 token di successo della cache = 0,1 token |
| Claude 3 Haiku di Anthropic | 4200 | 5 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura della cache 5 m = 1,25 token 1 token di scrittura della cache 1 h = 2 token 1 token di successo della cache = 0,1 token |
| Claude 3.5 Sonnet di Anthropic (ritirato) | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache 5m = 1,25 token 1 token di successo della cache = 0,1 token |
Per informazioni sulle località supportate, vedi Disponibilità della regione Anthropic Claude. Per ordinare Provisioned Throughput per i modelli Anthropic, contatta il tuo Google Cloud rappresentante dell'account.
Modelli aperti
La tabella seguente mostra il throughput, l'incremento di acquisto e i tassi di esaurimento per i modelli aperti che supportano il throughput riservato.
| Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di esaurimento |
|---|---|---|---|---|
|
Ultima versione supportata: |
3360 | 1 | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1680 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1680 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1400 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 1 token |
|
Ultima versione supportata: |
2800 | 1 | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
4035 | 1 | 1 | 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di testo di output = 3 token |
|
Ultima versione supportata: |
3360 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
11.205 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
14.405 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
4035 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
1010 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 4 token |
|
Ultima versione supportata: |
6725 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 8 token |
|
Ultima versione supportata: |
6725 | 1 | 1 | 1 token di testo di input = 1 token 1 token di testo di output = 8 token |
Funzionalità disponibili per Google e modelli aperti
La tabella seguente elenca le funzionalità disponibili con il throughput di cui è stato eseguito il provisioning per i modelli Google e i modelli open source:
| Capacità | Modelli Google | Modelli aperti (anteprima) |
|---|---|---|
| Ordina tramite la console Google Cloud | Sì | Sì |
| Supporta gli endpoint globali | Consulta Supporto del modello di endpoint globale. | Consulta Supporto del modello di endpoint globale. |
| Supporta i modelli ottimizzati supervisionati | Sì | No |
| Supporta l'utilizzo delle chiavi API | Sì | No |
| Integrato con la memorizzazione nella cache del contesto implicito | Sì | Non applicabile |
| Integrazione con la memorizzazione nella cache del contesto esplicito | Sì | Non applicabile |
| Elaborazione ML | Disponibile in regioni specifiche. Per maggiori dettagli, consulta Throughput riservato per una singola zona. | Non applicabile |
| Termini dell'ordine disponibili | 1 settimana, 1 mese, 3 mesi e 1 anno | 1 mese, 3 mesi e 1 anno |
| Modificare l'ordine dalla console | Sì | No |
| Stati dell'ordine: in attesa di revisione, approvato, attivo, scaduto | Sì | Sì |
| Superamento riassegnazione al pagamento a consumo per impostazione predefinita | Sì | Sì |
| Controllo dell'intestazione API: utilizza "dedicated" per utilizzare solo la velocità effettiva di provisioning o "shared" per utilizzare solo il pagamento a consumo | Sì | Sì |
| Monitoraggio: metriche, dashboard e avvisi | Sì | Sì |
Supporto del modello di endpoint globale
La capacità di trasmissione sottoposta a provisioning supporta l'endpoint globale per i modelli Google e i modelli aperti.
Il traffico che supera la quota di throughput di cui è stato eseguito il provisioning utilizza l'endpoint globale per impostazione predefinita.
Per assegnare il throughput di cui è stato eseguito il provisioning all'endpoint globale di un modello,
seleziona global come regione quando effettui un ordine di throughput di cui è stato eseguito il provisioning.
Modelli Google con supporto degli endpoint globali
La tabella seguente elenca i modelli Google per i quali il throughput con provisioning supporta l'endpoint globale:
| Modello | Ultima versione del modello supportata |
|---|---|
| Gemini 3 Pro (anteprima) | gemini-3-pro-preview |
| Gemini 3 Pro Image (anteprima) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash | |
| Gemini 2.5 Flash-Lite | |
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Modelli aperti con supporto degli endpoint globali
La tabella seguente elenca i modelli aperti per i quali il throughput riservato supporta l'endpoint globale:
| Modello | Ultima versione del modello supportata |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| DeepSeek-V3.2 | deepseek-v3.2-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
Supporto del modello ottimizzato supervisionato
Per i modelli Google che supportano la messa a punto supervisionata, è supportato quanto segue:
Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate con supervisione di questi modelli.
Gli endpoint dei modelli ottimizzati con supervisione e il relativo conteggio dei modelli di base vengono conteggiati ai fini della stessa quota di throughput riservato.
Ad esempio, il throughput di cui è stato eseguito il provisioning acquistato per
gemini-2.0-flash-lite-001per un progetto specifico assegna la priorità alle richieste effettuate da versioni ottimizzate supervisionate digemini-2.0-flash-lite-001create all'interno di quel progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.