PayGo standard

Il pagamento standard a consumo è un'opzione di consumo per l'utilizzo della suite di modelli di AI generativa di Gemini Enterprise Agent Platform, inclusa la famiglia di modelli Gemini. Il pagamento standard a consumo ti consente di pagare solo le risorse che consumi, senza richiedere impegni finanziari iniziali. Per fornire prestazioni più prevedibili per i carichi di lavoro scalabili, il pagamento standard a consumo incorpora un sistema di livelli di utilizzo. Agent Platform regola dinamicamente la capacità di throughput di base della tua organizzazione in base alla spesa totale per i servizi Agent Platform idonei in un periodo mobile di 30 giorni. Man mano che la spesa della tua organizzazione aumenta, viene automaticamente promossa a livelli superiori che forniscono un maggiore accesso alle risorse condivise e soglie di rendimento più elevate. Per i carichi di lavoro che richiedono prestazioni più coerenti rispetto al pagamento standard a consumo, valuta il pagamento prioritario a consumo. Per una capacità dedicata e garantita, consulta Throughput di cui è stato eseguito il provisioning.

Livelli di utilizzo e throughput

Ogni livello di utilizzo Standard PayGo mira a fornire una velocità effettiva di base, misurata in token al minuto (TPM), che funge da livello di rendimento prevedibile per il traffico della tua organizzazione. I limiti di velocità effettiva si basano sulle richieste inviate all'endpoint globale. L'utilizzo dell'endpoint globale è una best practice, in quanto fornisce l'accesso a un pool più ampio e multiregionale di capacità di velocità effettiva e consente di indirizzare le richieste alla posizione con la massima disponibilità per massimizzare il rendimento.

Il traffico non è limitato rigorosamente al limite di throughput di base. Agent Platform consente al traffico di superare questo limite in base al criterio del "best effort". Tuttavia, durante i periodi di forte domanda su Agent Platform, questo traffico burst in eccesso potrebbe avere una variabilità maggiore nelle prestazioni. Per ottimizzare il rendimento e ridurre al minimo la probabilità di ricevere questi errori, è anche una best practice uniformare il traffico il più possibile in ogni minuto. Evita di inviare richieste in picchi di secondo livello. Un traffico elevato e istantaneo può portare alla limitazione anche se l'utilizzo medio al minuto è inferiore al limite. La distribuzione più uniforme delle chiamate API aiuta il sistema a gestire il carico in modo prevedibile e migliora le prestazioni complessive.

In Standard PayGo sono disponibili i seguenti livelli:

Famiglia di modelli Livello Spesa dei clienti (30 giorni) Traffico TPM (a livello di organizzazione)
Modelli Gemini Pro Livello 1 10-250 $ 500.000
Livello 2 250 $-2000 $ 1.000.000
Livello 3 > 2000 $ 2.000.000
Modelli Gemini Flash e Flash-Lite Livello 1 10-250 $ 2.000.000
Livello 2 250 $-2000 $ 4.000.000
Livello 3 > 2000 $ 10.000.000

Tieni presente che il limite di velocità effettiva mostrato per una famiglia di modelli si applica indipendentemente a ogni modello all'interno di quella famiglia. Ad esempio, un cliente di livello 3 ha una velocità effettiva di base di 10.000.000 di TPM per Gemini 2.5 Flash e una base separata di 10.000.000 di TPM per Gemini 2.0 Flash. L'utilizzo rispetto a uno di questi limiti non influisce sulla velocità effettiva per gli altri modelli. Non esiste un limite separato di richieste al minuto (RPM) per ogni livello. Tuttavia, si applica il limite di sistema di 30.000 RPM per modello per regione. Le richieste Gemini con input multimodali sono soggette ai limiti di frequenza di sistema corrispondenti, inclusi immagini, audio, video e documenti.

Se hai bisogno di una velocità effettiva più elevata per un caso d'uso aziendale, contatta il team dedicato all'account per saperne di più su un livello personalizzato.

Come funzionano i livelli di utilizzo

Il tuo livello di utilizzo viene determinato automaticamente in base alla spesa totale della tua organizzazione per i servizi della piattaforma dell'agente idonei in un periodo di 30 giorni consecutivi. Man mano che aumenta la spesa della tua organizzazione, il sistema ti promuove a un livello superiore con un throughput maggiore.

Calcolo della spesa

Questo calcolo include una vasta gamma di servizi, dalle previsioni su tutte le famiglie di modelli Gemini alle istanze CPU, GPU e TPU di Agent Platform, nonché gli SKU basati sull'impegno, come il Throughput riservato.

Fai clic per saperne di più sugli SKU inclusi nel calcolo della spesa.

La tabella seguente elenca le categorie di Google Cloud SKU incluse nel calcolo della spesa totale.

Categoria Descrizione degli SKU inclusi
Modelli Gemini Tutte le famiglie di modelli Gemini (ad es. 2.0, 2.5, 3.0 nelle versioni Pro, Flash e Lite) per le previsioni in tutte le modalità (testo, immagine, audio, video), incluse le varianti batch, di contesto lungo, ottimizzate e "di pensiero"
Funzionalità dei modelli Gemini Tutti gli SKU Gemini correlati per funzionalità come memorizzazione nella cache, spazio di archiviazione della cache e livelli di priorità, in tutte le modalità e versioni del modello
CPU di Agent Platform Previsioni online e batch su tutte le famiglie di istanze basate su CPU (ad es. C2, C3, E2, N1, N2 e le relative varianti)
GPU di Agent Platform Previsioni online e batch su tutte le istanze con accelerazione GPU NVIDIA (ad es. serie A100, H100, H200, B200, L4, T4, V100 e RTX)
TPU di Agent Platform Previsioni online e batch su tutte le istanze basate su TPU (ad es. TPU v5e, v6e)
Gestione e commissioni Tutti gli SKU "Commissione di gestione" associati a varie istanze di previsione di Agent Platform
Throughput riservato Tutti gli SKU basati sull'impegno per il throughput riservato
Altri servizi Servizi specializzati come "LLM Grounding for Gemini... with Google Search tool"

Verificare il livello di utilizzo

Per verificare il livello di utilizzo della tua organizzazione, vai alla dashboard di Agent Platform nella console Google Cloud . Per visualizzare il livello di utilizzo nella dashboard, devi disporre del ruolo Visualizzatore piattaforma agente (roles/aiplatform.viewer) nel progetto e del ruolo Visualizzatore account di fatturazione (roles/billing.viewer) nell'account di fatturazione.

Vai alla dashboard di Agent Platform

Verifica la spesa

Per esaminare la spesa per Agent Platform, vai a Fatturazione Cloud nella consoleGoogle Cloud . Tieni presente che la spesa viene aggregata a livello di organizzazione.

Vai a Fatturazione Cloud

Errori relativi all'esaurimento delle risorse (429)

Se ricevi un errore 429, non significa che hai raggiunto una quota fissa. Indica una contesa temporanea elevata per una risorsa condivisa specifica. Ti consigliamo di implementare una strategia di ripetizione con backoff esponenziale per gestire questi errori, poiché la disponibilità in questo ambiente dinamico può cambiare rapidamente. Oltre a una strategia di ripetizione, ti consigliamo di utilizzare l'endpoint globale. A differenza di un endpoint regionale (ad esempio us-central1), l'endpoint globale indirizza dinamicamente le richieste alla regione con la maggiore capacità disponibile in quel momento. In questo modo, la tua applicazione può accedere a un pool multiregionale più ampio di capacità condivisa, aumentando significativamente il potenziale di burst riusciti e riducendo la probabilità di errori 429.

Per risultati ottimali, combina l'utilizzo dell'endpoint globale con la distribuzione uniforme del traffico. Evita di inviare richieste in picchi acuti di secondo livello, perché un traffico elevato e istantaneo può portare alla limitazione, anche se l'utilizzo medio al minuto rientra nel limite di throughput di base. La distribuzione più uniforme delle chiamate API aiuta il sistema a gestire il carico in modo prevedibile e migliora le prestazioni complessive. Per ulteriori informazioni su come gestire gli errori di esaurimento delle risorse, consulta Crea applicazioni LLM resilienti e riduci gli errori 429 e Codice di errore 429.

Modelli supportati

I seguenti modelli Gemini in disponibilità generale (GA) e i relativi modelli ottimizzati con supervisione supportano Standard PayGo con livelli di utilizzo:

Fai clic per espandere i modelli supportati

I seguenti modelli Gemini GA e i relativi modelli ottimizzati con supervisione supportano anche Standard PayGo, ma i livelli di utilizzo non si applicano a questi modelli:

Tieni presente che questi livelli non si applicano ai modelli di anteprima. Per informazioni più accurate e aggiornate, consulta la documentazione ufficiale specifica di ogni modello.

Monitorare il throughput e il rendimento

Per monitorare il consumo di token in tempo reale della tua organizzazione, vai a Metrics Explorer in Cloud Monitoring.

Vai a Esplora metriche

Per saperne di più sul monitoraggio del traffico degli endpoint del modello, consulta Monitorare i modelli.

Tieni presente che i livelli di utilizzo vengono applicati a livello di organizzazione. Per informazioni su come impostare l'ambito di osservabilità per tracciare il throughput in più progetti della tua organizzazione, consulta Configurare gli ambiti di osservabilità per le query multiprogetto.

Passaggi successivi

Risorsa

Quote e limiti relativi all'Agent Platform, escluse le limitazioni specifiche del prodotto.

Panoramica

Scopri in che modo Google Cloud limita la quantità di una risorsa che può essere utilizzata nel tuo progetto Google Cloud e come le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete.