Il modello standard pay-as-you-go (Standard PayGo) è un'opzione di consumo per l'utilizzo della suite di modelli di AI generativa di Vertex AI, tra cui le famiglie di modelli Gemini e Imagen su Vertex AI. Standard PayGo ti consente di pagare solo le risorse che utilizzi, senza richiedere impegni finanziari anticipati. Per fornire prestazioni più prevedibili per i carichi di lavoro scalabili, Standard PayGo incorpora un sistema di livelli di utilizzo. Vertex AI regola dinamicamente la capacità di throughput di base della tua organizzazione in base alla spesa totale per i servizi Vertex AI idonei in un periodo mobile di 30 giorni. Man mano che la spesa della tua organizzazione aumenta, viene promossa automaticamente a livelli superiori che forniscono un maggiore accesso alle risorse condivise e soglie di rendimento più elevate.
Livelli di utilizzo e throughput
Ogni livello di utilizzo Standard PayGo mira a fornire una velocità effettiva di base, misurata in token al minuto (TPM), che funge da livello di prestazioni prevedibile per il traffico della tua organizzazione. I limiti di throughput si basano sulle richieste inviate all'endpoint globale. L'utilizzo dell'endpoint globale è una best practice, in quanto fornisce l'accesso a un pool più ampio e multiregionale di capacità di velocità effettiva e consente il routing delle richieste alla località con la massima disponibilità per massimizzare le prestazioni.
Il traffico non è limitato rigorosamente al limite di throughput di base. Vertex AI consente al traffico di superare questo limite secondo il criterio del "best effort". Tuttavia, durante i periodi di forte domanda sulla piattaforma Vertex AI, questo traffico burst in eccesso potrebbe presentare una maggiore variabilità delle prestazioni. Per ottimizzare il rendimento e ridurre al minimo la probabilità di ricevere questi errori, è anche una best practice uniformare il traffico il più possibile in ogni minuto. Evita di inviare richieste in picchi secondari acuti. Un traffico elevato e istantaneo può portare alla limitazione anche se l'utilizzo medio al minuto è inferiore al limite. La distribuzione più uniforme delle chiamate API aiuta il sistema a gestire il carico in modo prevedibile e migliora le prestazioni complessive.
In Standard PayGo sono disponibili i seguenti livelli:
| Model Family | Livello | Spesa dei clienti (30 giorni) | Traffico TPM (a livello di organizzazione) |
|---|---|---|---|
| Modelli Gemini Pro | Livello 1 | 10-250 $ | 500.000 |
| Livello 2 | 250 $-2000 $ | 1.000.000 | |
| Livello 3 | > 2000 $ | 2.000.000 | |
| Modelli Gemini Flash e Flash-Lite | Livello 1 | 10-250 $ | 2.000.000 |
| Livello 2 | 250 $-2000 $ | 4.000.000 | |
| Livello 3 | > 2000 $ | 10.000.000 |
Tieni presente che il limite di throughput mostrato per una famiglia di modelli si applica indipendentemente a ogni modello all'interno di quella famiglia. Ad esempio, un cliente di livello 3 ha un throughput di base di 10.000.000 di TPM per Gemini 2.5 Flash e una base separata di 10.000.000 di TPM per Gemini 2.0 Flash. L'utilizzo di uno di questi limiti non influisce sul throughput di altri modelli. Non esiste un limite RPM (richieste al minuto) separato per ogni livello. Tuttavia, si applica il limite di sistema di 30.000 RPM per modello per regione. Le richieste a Gemini con input multimodali sono soggette ai limiti di frequenza del sistema corrispondenti, tra cui immagini, audio, video e documenti.
Se hai bisogno di una velocità effettiva superiore per un caso d'uso aziendale, contatta il team dedicato al tuo account per saperne di più su un livello personalizzato.
Come funzionano i livelli di utilizzo
Il tuo livello di utilizzo viene determinato automaticamente in base alla spesa totale della tua organizzazione per i servizi Vertex AI idonei in un periodo mobile di 30 giorni. Man mano che aumentano le spese della tua organizzazione, il sistema ti promuove a un livello superiore con un throughput maggiore.
Calcolo della spesa
Questo calcolo include un'ampia gamma di servizi, dalle previsioni su tutte le famiglie di modelli Gemini alle istanze CPU, GPU e TPU di Vertex AI, nonché gli SKU basati sull'impegno, come il throughput di cui è stato eseguito il provisioning.
Fai clic per saperne di più sugli SKU inclusi nel calcolo della spesa.
La tabella seguente elenca le categorie di Google Cloud SKU incluse nel calcolo della spesa totale.
| Categoria | Descrizione degli SKU inclusi |
|---|---|
| Modelli Gemini | Tutte le famiglie di modelli Gemini (ad es. 2.0, 2.5, 3.0 nelle versioni Pro, Flash e Lite per le previsioni in tutte le modalità (testo, immagine, audio, video), incluse le varianti batch, con contesto lungo, ottimizzate e "di pensiero" |
| Funzionalità dei modelli Gemini | Tutti gli SKU Gemini correlati per funzionalità come memorizzazione nella cache, spazio di archiviazione della cache e livelli di priorità, in tutte le modalità e versioni del modello |
| CPU Vertex AI | Previsioni online e batch su tutte le famiglie di istanze basate su CPU (ad es. C2, C3, E2, N1, N2 e le relative varianti) |
| GPU Vertex AI | Previsioni online e batch su tutte le istanze con accelerazione GPU NVIDIA (ad es. A100, H100, H200, B200, L4, T4, V100 e serie RTX) |
| Vertex AI TPU | Previsioni online e batch su tutte le istanze basate su TPU (ad es. TPU v5e, v6e) |
| Gestione e commissioni | Tutti gli SKU "Commissione di gestione" associati a varie istanze di previsione di Vertex AI |
| Throughput riservato | Tutti gli SKU basati sull'impegno per il throughput riservato |
| Altri servizi | Servizi specializzati come "LLM Grounding for Gemini... with Google Search tool" |
Verificare il livello di utilizzo
Per verificare il livello di utilizzo della tua organizzazione, vai alla dashboard Vertex AI nella console Google Cloud .
Vai alla dashboard di Vertex AI
Verifica la spesa
Per esaminare la spesa per Vertex AI, vai a Fatturazione Cloud nella consoleGoogle Cloud . Tieni presente che la spesa viene aggregata a livello di organizzazione.
Errori relativi all'esaurimento delle risorse (429)
Se ricevi un errore 429, non significa che hai raggiunto una quota fissa.
Indica una contesa temporanea elevata per una risorsa condivisa specifica. Ti
consigliamo di implementare una strategia di ripetizione con backoff esponenziale per gestire questi
errori, poiché la disponibilità in questo ambiente dinamico può cambiare rapidamente. Oltre a una strategia di ripetizione, ti consigliamo di utilizzare l'endpoint globale. A differenza di un
endpoint regionale (ad esempio us-central1), l'endpoint globale indirizza dinamicamente
le richieste alla regione con la maggiore capacità disponibile in quel
momento. In questo modo, la tua applicazione può accedere a un pool multiregionale più ampio di capacità condivisa, aumentando significativamente il potenziale di burst riusciti e riducendo la probabilità di errori 429.
Per risultati ottimali, combina l'utilizzo dell'endpoint globale con la distribuzione uniforme del traffico. Evita di inviare richieste in picchi acuti di secondo livello, perché un traffico elevato e istantaneo può portare alla limitazione, anche se l'utilizzo medio al minuto rientra nel limite di throughput di base. Distribuire le chiamate API in modo più uniforme aiuta il sistema a gestire il carico in modo prevedibile e migliora le prestazioni complessive. Per ulteriori informazioni su come gestire gli errori di esaurimento delle risorse, consulta Guida alla gestione degli errori 429 e Codice di errore 429.
Modelli supportati
I seguenti modelli Gemini disponibili a livello generale (GA) e i relativi modelli ottimizzati con supervisione supportano Standard PayGo con livelli di utilizzo:
I seguenti modelli Gemini GA e i relativi modelli ottimizzati con supervisione supportano anche Standard PayGo, ma i livelli di utilizzo non si applicano a questi modelli:
Tieni presente che questi livelli non si applicano ai modelli di anteprima. Per informazioni più accurate e aggiornate, consulta la documentazione ufficiale specifica di ogni modello.
Monitorare il throughput e le prestazioni
Per monitorare il consumo di token in tempo reale della tua organizzazione, vai a Metrics Explorer in Cloud Monitoring.
Per saperne di più sul monitoraggio del traffico degli endpoint del modello, consulta Monitorare i modelli.
Tieni presente che i livelli di utilizzo si applicano a livello di organizzazione. Per informazioni su come impostare l'ambito di osservabilità per rappresentare graficamente il throughput in più progetti della tua organizzazione, consulta Configurare gli ambiti di osservabilità per le query multiprogetto.
Passaggi successivi
- Per informazioni su quote e limiti per Vertex AI, consulta la pagina Quote e limiti di Vertex AI.
- Per saperne di più su quote e limiti di sistema, consulta la documentazione di Cloud Quotas. Google Cloud