PayGo standard

Il pagamento a consumo standard è un'opzione di consumo per utilizzare la suite di modelli di AI generativa di Gemini Enterprise Agent Platform. Standard PayGo ti consente di pagare solo le risorse che consumi, senza richiedere impegni finanziari anticipati. Per fornire prestazioni più prevedibili per i workload scalabili, Standard PayGo incorpora un sistema di livelli di utilizzo. Agent Platform regola dinamicamente la capacità di throughput di base della tua organizzazione in base alla spesa totale per i servizi Agent Platform idonei in un periodo mobile di 30 giorni. Man mano che la spesa della tua organizzazione aumenta, viene promossa automaticamente a livelli superiori che forniscono un maggiore accesso alle risorse condivise e soglie di rendimento più elevate.

Livelli di utilizzo e throughput

Ogni livello di utilizzo Standard PayGo mira a fornire una velocità effettiva di base, misurata in token al minuto (TPM), che funge da limite minimo di prestazioni prevedibile per il traffico della tua organizzazione. I limiti di velocità effettiva si basano sulle richieste inviate all'endpoint globale. L'utilizzo dell'endpoint globale è una best practice, in quanto fornisce l'accesso a un pool multiregionale più ampio di capacità di velocità effettiva e consente il routing delle richieste alla località con la maggiore disponibilità per massimizzare le prestazioni.

Il traffico non è limitato rigorosamente al limite di throughput di base. Agent Platform consente al traffico di superare questo limite in base al criterio del "best effort". Tuttavia, durante i periodi di forte domanda sulla piattaforma Agent Platform, questo traffico burst in eccesso potrebbe presentare una maggiore variabilità delle prestazioni. Per ottimizzare il rendimento e ridurre al minimo la probabilità di ricevere questi errori, è anche una best practice distribuire il traffico nel modo più uniforme possibile durante ogni minuto. Evita di inviare richieste con picchi secondari elevati. Un traffico elevato e istantaneo può portare alla limitazione anche se l'utilizzo medio al minuto è inferiore al limite. La distribuzione più uniforme delle chiamate API aiuta il sistema a gestire il carico in modo prevedibile e migliora le prestazioni complessive.

In Standard PayGo sono disponibili i seguenti livelli:

Model Family Livello Spesa dei clienti (30 giorni) TPM del traffico (a livello di organizzazione)
Modelli Gemini Pro Livello 1 10-250 $ 500.000
Livello 2 250 $-2000 $ 1.000.000
Livello 3 > 2000 $ 2.000.000
Modelli Gemini Flash e Flash-Lite Livello 1 10-250 $ 2.000.000
Livello 2 250 $-2000 $ 4.000.000
Livello 3 > 2000 $ 10.000.000

Il limite di throughput mostrato per una famiglia di modelli si applica indipendentemente a ogni modello all'interno di quella famiglia. Ad esempio, un cliente di livello 3 ha un throughput di base di 10.000.000 di TPM per Gemini 2.5 Flash e una base separata di 10.000.000 di TPM per Gemini 2.0 Flash. L'utilizzo di uno di questi limiti non influisce sul throughput di altri modelli. Non esiste un limite separato di richieste al minuto (RPM) per ogni livello. Tuttavia, si applica il limite di sistema di 30.000 RPM per modello per regione. Le richieste a Gemini con input multimodali sono soggette ai limiti di frequenza del sistema corrispondenti, tra cui immagini, audio, video e documenti.

Se hai bisogno di una velocità effettiva più elevata per un caso d'uso aziendale, contatta il team dedicato all'account per saperne di più su un livello personalizzato.

Come funzionano i livelli di utilizzo

Il tuo livello di utilizzo viene determinato automaticamente dalla spesa totale della tua organizzazione per i servizi idonei della piattaforma agentica Gemini Enterprise in un periodo mobile di 30 giorni. Man mano che aumenta la spesa della tua organizzazione, il sistema ti promuove a un livello superiore con un throughput maggiore.

Calcolo della spesa

Questo calcolo include una vasta gamma di servizi, dalle previsioni su tutte le famiglie di modelli Gemini alle istanze di CPU, GPU e TPU di Gemini Enterprise Agent Platform, nonché gli SKU basati sull'impegno, come il Throughput riservato.

Fai clic per saperne di più sugli SKU inclusi nel calcolo della spesa.

La tabella seguente elenca le categorie di Google Cloud SKU incluse nel calcolo della spesa totale.

Categoria Descrizione degli SKU inclusi
Modelli Gemini Tutte le famiglie di modelli Gemini (ad es. 2.0, 2.5, 3.0 nelle versioni Pro, Flash e Lite) per le previsioni in tutte le modalità (testo, immagine, audio, video), incluse le varianti batch, di contesto lungo, ottimizzate e "di pensiero"
Funzionalità del modello Gemini Tutti gli SKU Gemini correlati per funzionalità come memorizzazione nella cache, spazio di archiviazione della cache e livelli di priorità, in tutte le modalità e versioni del modello
CPU della piattaforma dell'agente Previsioni online e batch su tutte le famiglie di istanze basate su CPU (ad es. C2, C3, E2, N1, N2 e le relative varianti)
GPU della piattaforma agentica Previsioni online e batch su tutte le istanze con accelerazione GPU NVIDIA (ad es. serie A100, H100, H200, B200, L4, T4, V100 e RTX)
TPU della piattaforma dell'agente Previsioni online e batch su tutte le istanze basate su TPU (ad es. TPU v5e, v6e)
Gestione e commissioni Tutte le SKU "Commissione di gestione" associate a varie istanze di previsione di Agent Platform
Throughput riservato Tutti gli SKU basati sull'impegno per il throughput riservato
Altri servizi Servizi specializzati come "LLM Grounding for Gemini... with Google Search tool"

Verificare il livello di utilizzo

Per verificare il livello di utilizzo della tua organizzazione, vai alla dashboard della piattaforma di agenti Gemini Enterprise nella console Google Cloud .

Verifica la spesa

Per esaminare la spesa della piattaforma dell'agente, vai a Fatturazione Cloud nella consoleGoogle Cloud . La spesa viene aggregata a livello di organizzazione.

Vai a Fatturazione Cloud

Errori relativi all'esaurimento delle risorse (429)

Se ricevi un errore 429: Resource Exhausted, non significa che hai raggiunto una quota fissa. Indica una contesa temporanea elevata per una risorsa condivisa specifica. Per gestire questi errori, ti consigliamo di implementare una strategia di ripetizione con backoff esponenziale, poiché la disponibilità in questo ambiente dinamico può cambiare rapidamente. Oltre a una strategia di nuovi tentativi, ti consigliamo di utilizzare l'endpoint globale. A differenza di un endpoint regionale (ad esempio us-central1), l'endpoint globale instrada dinamicamente le richieste alla regione con la capacità più disponibile in quel momento. In questo modo, la tua applicazione può accedere a un pool multiregionale più grande di capacità condivisa, aumentando notevolmente il potenziale di burst riusciti e riducendo la probabilità di errori 429.

Per risultati ottimali, combina l'utilizzo dell'endpoint globale con la distribuzione uniforme del traffico. Evita di inviare richieste in picchi acuti di secondo livello, perché un traffico elevato e istantaneo può portare alla limitazione, anche se l'utilizzo medio al minuto rientra nel limite di velocità effettiva di base. La distribuzione più uniforme delle chiamate API aiuta il sistema a gestire il carico in modo prevedibile e migliora le prestazioni complessive. Per ulteriori informazioni su come gestire gli errori di esaurimento delle risorse, consulta Guida alla gestione degli errori 429 e Codice di errore 429.

Monitorare il throughput e le prestazioni

Per monitorare il consumo di token in tempo reale della tua organizzazione, vai a Metrics Explorer in Cloud Monitoring.

Vai a Esplora metriche

Per saperne di più sul monitoraggio del traffico dell'endpoint del modello, consulta Monitorare i modelli.

Tieni presente che i livelli di utilizzo si applicano a livello di organizzazione. Per informazioni su come impostare l'ambito di osservabilità per rappresentare graficamente il throughput in più progetti della tua organizzazione, consulta Configurare gli ambiti di osservabilità per le query multiprogetto.