Questa pagina spiega come funziona il throughput di cui è stato eseguito il provisioning, come controllare i superamenti o bypassare il throughput di cui è stato eseguito il provisioning e come monitorare l'utilizzo.
Come funziona la velocità effettiva di cui è stato eseguito il provisioning
Questa sezione spiega come funziona il throughput di cui è stato eseguito il provisioning utilizzando il controllo delle quote durante il periodo di applicazione delle quote.
Controllo della quota di throughput riservato
La quota massima di velocità effettiva di cui è stato eseguito il provisioning è un multiplo del numero di unità della scala di AI generativa (GSU) acquistate e della velocità effettiva per GSU. Viene controllato ogni volta che fai una richiesta entro il periodo di applicazione della quota, ovvero la frequenza con cui viene applicata la quota massima di throughput di cui è stato eseguito il provisioning.
Al momento della ricezione di una richiesta, le dimensioni effettive della risposta sono sconosciute. Poiché diamo la priorità alla velocità di risposta per le applicazioni in tempo reale, il throughput di cui è stato eseguito il provisioning stima le dimensioni dei token di output. Se la stima iniziale supera la quota massima di Provisioned Throughput disponibile, la richiesta viene elaborata come pagamento a consumo. In caso contrario, viene elaborata come Provisioned Throughput. Ciò avviene confrontando la stima iniziale con la quota massima di throughput di cui è stato eseguito il provisioning.
Quando la risposta viene generata e le dimensioni effettive del token di output sono note, l'utilizzo e la quota effettivi vengono riconciliati aggiungendo la differenza tra la stima e l'utilizzo effettivo all'importo della quota di throughput di cui è stato eseguito il provisioning disponibile.
Finestre di applicazione delle quote di throughput riservato
Vertex AI applica una finestra dinamica durante l'applicazione della quota di throughput di cui è stato eseguito il provisioning per i modelli Gemini. Ciò garantisce una stabilità ottimale per il traffico soggetto a picchi. Anziché una finestra fissa, Vertex AI applica la quota su una finestra flessibile che si adatta automaticamente in base al tipo di modello e al numero di GSU di cui hai eseguito il provisioning. Di conseguenza, in alcuni casi potresti riscontrare temporaneamente un traffico prioritario che supera l'importo della quota al secondo. Tuttavia, non devi superare la quota durante la durata della finestra. Questi periodi si basano sull'ora dell'orologio interno di Vertex AI e sono indipendenti dal momento in cui vengono effettuate le richieste.
Come funziona la finestra di applicazione della quota
La finestra di applicazione determina di quanto puoi superare, o "burst", il limite al secondo prima che venga applicata la limitazione. Questa finestra viene applicata automaticamente. Tieni presente che questi periodi sono soggetti a modifiche per ottimizzare le prestazioni e l'affidabilità.
Allocazioni di piccole dimensioni di unità di servizio Google (3 unità di servizio Google o meno): la finestra può variare da 40 a 120 secondi per consentire l'elaborazione di richieste individuali più grandi senza interruzioni.
Ad esempio, se acquisti 1 GSU di
gemini-2.5-flash, ottieni una media di 2690 token al secondo di throughput continuo. L'utilizzo totale in un periodo di 120 secondi non può superare i 322.800 token (2690 token al secondo * 120 secondi). Pertanto, se invii una richiesta che utilizza 70.000 token al secondo, ma l'utilizzo totale in 120 secondi rimane al di sotto di 322.800 token, il burst di 70.000 token al secondo viene comunque conteggiato come throughput di cui è stato eseguito il provisioning, poiché l'utilizzo medio non supera i 2690 token al secondo.Allocazioni GSU standard (di medie dimensioni) (più di 3 GSU): per implementazioni GSU di medie dimensioni (ad esempio, meno di 50 GSU), la finestra può variare da 5 a 30 secondi. Le soglie e le finestre contestuali di GSU variano in base al modello.
Ad esempio, se acquisti 25 GSU di
gemini-2.5-flash, ottieni una velocità effettiva continua media di 67.250 token al secondo (25 * 2690 token al secondo). L'utilizzo totale in un periodo di 30 secondi non può superare 2.017.500 token (67.250 token al secondo * 30 secondi). Pertanto, se invii una richiesta che utilizza 1.000.000 di token al secondo, ma l'utilizzo totale in 30 secondi rimane entro 2.017.500 token, il burst di 1.000.000 di token al secondo viene comunque conteggiato come throughput riservato, poiché l'utilizzo medio non supera 67.250 token al secondo.Allocazioni GSU ad alta precisione (su larga scala): per deployment GSU su larga scala (ad esempio, 50 GSU o più), la finestra può variare da 1 a 5 secondi per garantire che le richieste ad alta frequenza vengano elaborate con la massima precisione nell'infrastruttura.
Ad esempio, se acquisti 250 GSU di
gemini-2.5-flash, ottieni una media di 672.500 token al secondo (2690 token al secondo * 250) di throughput continuo. L'utilizzo totale in un periodo di 5 secondi non può superare 3.362.500 token (672.500 token al secondo * 5 secondi). Pertanto, se invii una richiesta che utilizza 5.000.000 di token al secondo, non verrà elaborata come throughput di cui è stato eseguito il provisioning, perché l'utilizzo totale di 5.000.000 di token supera il limite di 3.362.500 token in un intervallo di 5 secondi. D'altra parte, una richiesta che utilizza 1.000.000 di token al secondo può essere elaborata come throughput di cui è stato eseguito il provisioning, se l'utilizzo medio nella finestra di 5 secondi non supera i 672.500 token al secondo.
Controllare gli addebiti per superamento o ignorare il throughput sottoposto a provisioning
Utilizza l'API per controllare le eccedenze quando superi la velocità effettiva acquistata o per ignorare la velocità effettiva di provisioning in base alla singola richiesta.
Leggi attentamente ogni opzione per determinare cosa devi fare per soddisfare il tuo caso d'uso.
Comportamento predefinito
Se una richiesta supera la quota di throughput di cui è stato eseguito il provisioning rimanente, l'intera richiesta viene elaborata come richiesta on demand per impostazione predefinita e viene fatturata alla tariffa pay-as-you-go. Quando ciò si verifica, il traffico viene visualizzato come overflow nelle dashboard di monitoraggio. Per ulteriori informazioni sul monitoraggio dell'utilizzo del throughput riservato, vedi Monitorare il throughput riservato.
Una volta attivo l'ordine di Provisioned Throughput, il comportamento predefinito si verifica automaticamente. Non devi modificare il codice per iniziare a utilizzare l'ordine, a condizione che lo utilizzi nella regione di provisioning.
Utilizza solo il throughput riservato
Se gestisci i costi evitando gli addebiti on demand, utilizza solo
la velocità effettiva di cui è stato eseguito il provisioning. Le richieste che superano l'importo dell'ordine di
throughput di provisioning restituiscono un errore 429.
Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su dedicated.
Utilizzare solo il pagamento a consumo
Questa operazione è detta anche utilizzo on demand. Le richieste ignorano l'ordine di throughput di cui è stato eseguito il provisioning e vengono inviate direttamente al pagamento a consumo. Questa opzione potrebbe essere utile per esperimenti o applicazioni in fase di sviluppo.
Quando invii richieste all'API, imposta l'intestazione HTTP X-Vertex-AI-LLM-Request-Type su shared.
Esempio
Python
Installa
pip install --upgrade google-genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Go
Scopri come installare o aggiornare Go.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Node.js
Installa
npm install @google/genai
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Java
Scopri come installare o aggiornare Java.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.
Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Utilizzare il throughput riservato con una chiave API
Se hai acquistato il throughput riservato per un progetto, un modello Google e una regione specifici e vuoi utilizzarlo per inviare una richiesta con una chiave API, devi includere l'ID progetto, il modello, la località e la chiave API come parametri nella richiesta.
Per informazioni su come creare una Google Cloud chiave API associata a un account di servizio, consulta Ottieni una Google Cloud chiave API. Per scoprire come inviare richieste all'API Gemini utilizzando una chiave API, consulta la guida rapida all'API Gemini in Vertex AI.
Ad esempio, il seguente campione mostra come inviare una richiesta con una chiave API durante l'utilizzo del throughput di cui è stato eseguito il provisioning:
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. L'esempio seguente invia una richiesta all'endpoint del modello del publisher.
curl \
-X POST \
-H "Content-Type: application/json" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_ID:generateContent?key=YOUR_API_KEY" \
-d $'{
"contents": [
{
"role": "user",
"parts": [
{
"text": "Explain how AI works in a few words"
}
]
}
]
}'
Monitorare il throughput riservato
Puoi monitorare autonomamente l'utilizzo del throughput di cui è stato eseguito il provisioning utilizzando un insieme
di metriche misurate sul tipo di risorsa aiplatform.googleapis.com/PublisherModel.
Il monitoraggio del traffico del throughput riservato è una funzionalità in anteprima pubblica.
Dimensioni
Puoi filtrare in base alle metriche utilizzando le seguenti dimensioni:
| Dimensione | Valori |
|---|---|
type |
inputoutput |
request_type |
|
Prefisso percorso
Il prefisso del percorso per una metrica è
aiplatform.googleapis.com/publisher/online_serving.
Ad esempio, il percorso completo della metrica /consumed_throughput è
aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.
Metriche
Le seguenti metriche di Cloud Monitoring sono disponibili per la risorsa aiplatform.googleapis.com/PublisherModel per i modelli Gemini. Utilizza i tipi di richiesta dedicated per filtrare l'utilizzo
del throughput di cui è stato eseguito il provisioning.
| Metrica | Nome visualizzato | Descrizione |
|---|---|---|
/dedicated_gsu_limit |
Limite (GSU) | Limite dedicato nelle GSU. Utilizza questa metrica per comprendere la quota massima di velocità effettiva di cui è stato eseguito il provisioning in GSU. |
/tokens |
Token | Distribuzione del conteggio dei token di input e output. |
/token_count |
Conteggio token | Conteggio dei token di input e output accumulati. |
/consumed_token_throughput |
Throughput dei token | Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento dei token e incorpora la riconciliazione delle quote. Consulta Controllo della quota di velocità effettiva sottoposta a provisioning. Utilizza questa metrica per capire come è stata utilizzata la quota di velocità effettiva sottoposta a provisioning. |
/dedicated_token_limit |
Limite (token al secondo) | Limite dedicato in token al secondo. Utilizza questa metrica per comprendere la quota massima di throughput di cui è stato eseguito il provisioning per i modelli basati su token. |
/characters |
Caratteri | Distribuzione del conteggio dei caratteri di input e output. |
/character_count |
Conteggio dei caratteri | Conteggio dei caratteri di input e output accumulati. |
/consumed_throughput |
Velocità effettiva dei caratteri | Utilizzo della velocità effettiva, che tiene conto del tasso di esaurimento in caratteri e incorpora la riconciliazione delle quote Controllo della quota di velocità effettiva di cui è stato eseguito il provisioning. Utilizza questa metrica per capire come è stata utilizzata la quota di velocità effettiva di cui è stato eseguito il provisioning. Per i modelli basati su token, questa metrica equivale al throughput consumato in token moltiplicato per 4. |
/dedicated_character_limit |
Limite (caratteri al secondo) | Limite dedicato in caratteri al secondo. Utilizza questa metrica per comprendere la quota massima di throughput di cui è stato eseguito il provisioning per i modelli basati su caratteri. |
/model_invocation_count |
Conteggio chiamate del modello | Numero di chiamate del modello (richieste di previsione). |
/model_invocation_latencies |
Latenze di chiamata del modello | Latenze di chiamata del modello (latenze di previsione). |
/first_token_latencies |
Latenze del primo token | Durata dal momento in cui la richiesta viene ricevuta al momento in cui viene restituito il primo token. |
I modelli Anthropic hanno anche un filtro per il throughput riservato, ma
solo per tokens e token_count.
Dashboard
Le dashboard di monitoraggio predefinite per il throughput di cui è stato eseguito il provisioning forniscono metriche che ti consentono di comprendere meglio l'utilizzo e l'utilizzo del throughput di cui è stato eseguito il provisioning. Per accedere alle dashboard:
Nella console Google Cloud , vai alla pagina Throughput di cui è stato eseguito il provisioning.
Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.
Nella tabella Utilizzo del throughput riservato per modello puoi visualizzare quanto segue per l'intervallo di tempo selezionato:
Numero totale di GSU che avevi.
Utilizzo del throughput di picco in termini di GSU.
L'utilizzo medio di GSU.
Il numero di volte in cui hai raggiunto il limite di throughput di provisioning.
Seleziona un modello dalla tabella Utilizzo della velocità effettiva di cui è stato eseguito il provisioning per modello per visualizzare altre metriche specifiche per il modello selezionato.
Come interpretare le dashboard di monitoraggio
Throughput di cui è stato eseguito il provisioning controlla la quota disponibile in tempo reale a livello di millisecondo per le richieste man mano che vengono effettuate, ma confronta questi dati con un periodo di applicazione della quota continuo, in base all'ora dell'orologio interno di Vertex AI. Questo confronto è indipendente dal momento in cui vengono effettuate le richieste. Le dashboard di monitoraggio riportano le metriche di utilizzo dopo la riconciliazione delle quote. Tuttavia, queste metriche vengono aggregate per fornire medie per i periodi di allineamento della dashboard, in base all'intervallo di tempo selezionato. La granularità più bassa possibile supportata dalle dashboard di monitoraggio è a livello di minuti. Inoltre, l'ora dell'orologio per i dashboard di monitoraggio è diversa da quella di Vertex AI.
Queste differenze di tempistica potrebbero occasionalmente comportare discrepanze tra i dati nei dashboard di monitoraggio e il rendimento in tempo reale. Questi possono derivare da uno dei seguenti motivi:
La quota viene applicata in tempo reale, ma i grafici di monitoraggio aggregano i dati in periodi di allineamento della dashboard medi di 1 minuto o superiori, a seconda dell'intervallo di tempo specificato nelle dashboard di monitoraggio.
Vertex AI e i dashboard di monitoraggio vengono eseguiti su orologi di sistema diversi.
Se un picco di traffico in un periodo di 1 secondo supera la quota di throughput di cui è stato eseguito il provisioning, l'intera richiesta viene elaborata come traffico di overflow. Tuttavia, l'utilizzo complessivo del throughput di provisioning potrebbe sembrare basso quando i dati di monitoraggio per quel secondo vengono calcolati in media nel periodo di allineamento di 1 minuto, perché l'utilizzo medio nell'intero periodo di allineamento potrebbe non superare il 100%. Se visualizzi traffico di overflow, significa che la quota di throughput di cui è stato eseguito il provisioning è stata utilizzata completamente durante il periodo di applicazione della quota in cui sono state effettuate le richieste specifiche. Indipendentemente dall'utilizzo medio mostrato nelle dashboard di monitoraggio.
Esempio di potenziale discrepanza nei dati di monitoraggio
Questo esempio illustra alcune delle discrepanze derivanti dal disallineamento della finestra. La Figura 1 mostra l'utilizzo del throughput in un periodo di tempo specifico. In questa figura:
Le barre blu rappresentano il traffico ammesso come throughput di provisioning.
La barra arancione rappresenta il traffico che spinge l'utilizzo oltre il limite di GSU e viene elaborato come spillover.
In base all'utilizzo del throughput, la figura 2 mostra possibili discrepanze visive dovute al disallineamento delle finestre. In questa figura:
La linea blu rappresenta il traffico di Provisioned Throughput.
La linea arancione rappresenta il traffico di overflow.
In questo caso, i dati di monitoraggio potrebbero mostrare l'utilizzo del throughput di cui è stato eseguito il provisioning senza spillover per un periodo di aggregazione del monitoraggio, mentre contemporaneamente si osserva l'utilizzo del throughput di cui è stato eseguito il provisioning al di sotto del limite GSU in concomitanza con uno spillover in un altro periodo di aggregazione del monitoraggio.
Risolvere i problemi relativi alle dashboard di monitoraggio
Per risolvere i problemi relativi a overflow imprevisti nei dashboard o agli errori 429, segui questi passaggi:
Aumento dello zoom: imposta l'intervallo di tempo della dashboard su 12 ore o meno per fornire il periodo di allineamento più granulare di 1 minuto. Intervalli di tempo ampi attenuano i picchi che causano la limitazione e aumentano le medie del periodo di allineamento.
Controlla il traffico totale: i dashboard specifici per il modello mostrano il traffico dedicato e quello di overflow come due linee separate, il che potrebbe portare alla conclusione errata che la quota di throughput di cui è stato eseguito il provisioning non viene utilizzata completamente e si verifica un overflow prematuro. Se il tuo traffico supera la quota disponibile, l'intera richiesta viene elaborata come spillover. Per un'altra visualizzazione utile, aggiungi una query alla dashboard utilizzando Metrics Explorer e includi il throughput dei token per il modello e la regione specifici. Non includere ulteriori aggregazioni o filtri per visualizzare il traffico totale in tutti i tipi di traffico (dedicato, spillover e condiviso).
Monitorare i modelli Genmedia
Il monitoraggio del throughput riservato non è disponibile per i modelli Veo 3 e Imagen.
Avvisi
Dopo aver attivato gli avvisi, imposta quelli predefiniti per gestire l'utilizzo del traffico.
Attiva avvisi
Per attivare gli avvisi nella dashboard:
Nella console Google Cloud , vai alla pagina Throughput di cui è stato eseguito il provisioning.
Per visualizzare l'utilizzo del throughput riservato di ciascun modello negli ordini, seleziona la scheda Riepilogo utilizzo.
Seleziona Avvisi consigliati e verranno visualizzati i seguenti avvisi:
Provisioned Throughput Usage Reached LimitProvisioned Throughput Utilization Exceeded 80%Provisioned Throughput Utilization Exceeded 90%
Controlla gli avvisi che ti aiutano a gestire il traffico.
Visualizzare ulteriori dettagli dell'avviso
Per visualizzare ulteriori informazioni sugli avvisi:
Vai alla pagina Integrazioni.
Inserisci vertex nel campo Filtro e premi Invio. Viene visualizzata la pagina Google Vertex AI.
Per visualizzare ulteriori informazioni, fai clic su Visualizza dettagli. Viene visualizzato il riquadro Google Vertex AI details.
Seleziona la scheda Avvisi e scegli un modello di policy di avviso.
Passaggi successivi
- Risolvi i problemi relativi al codice di errore
429.