Controllare i costi con le quote di token
Questo documento descrive come definire e gestire i limiti giornalieri del numero di token di input e output utilizzati dalle funzioni di AI generativa.Le funzioni di AI generativa di BigQuery utilizzano modelli linguistici di grandi dimensioni (LLM) per eseguire analisi avanzate all'interno delle query SQL. Poiché l'utilizzo degli LLM viene in genere fatturato in base al numero di token elaborati, BigQuery fornisce quote di token per aiutarti a gestire e controllare i costi associati all'utilizzo di queste funzioni.
Le quote di token si applicano alle funzioni SQL di BigQuery progettate per tutte le attività di inferenza di AI generativa che utilizzano i LLM Gemini, come le funzioni AI.CLASSIFY e AI.GENERATE.
Dettagli quota
BigQuery fornisce le seguenti quote giornaliere in base all'utilizzo dei token LLM. L'utilizzo dei token è direttamente correlato alla fatturazione di Vertex AI per le funzioni di AI generativa di BigQuery che utilizzano i modelli Gemini. Queste quote vengono monitorate a livello globale in tutte le regioni.
Queste quote di token regolano il numero di token di input e output elaborati dagli LLM per le funzioni di AI generativa:
- Token di input: token inviati al modello per l'elaborazione. Sono inclusi i token nel testo del prompt e tutti gli altri dati forniti al modello come input.
- Token di output: token generati dal modello nella risposta. Sono inclusi i token nel testo generato (token candidati) e i token generati durante i passaggi di ragionamento interni (token di pensiero).
| Nome quota | Metrica | Ambito | Valore predefinito |
|---|---|---|---|
GenAiInputTokensPerDay |
Token di input utilizzati dall'LLM | Al giorno per progetto | 200.000.000.000 |
GenAiInputTokensPerUserPerDay |
Token di input utilizzati dall'LLM | Al giorno per utente | 40.000.000.000 |
GenAiOutputTokensPerDay |
Token di output e di pensiero utilizzati dall'LLM | Al giorno per progetto | 20.000.000.000 |
GenAiOutputTokensPerUserPerDay |
Token di output e di pensiero utilizzati dall'LLM | Al giorno per utente | 4.000.000.000 |
Queste quote vengono monitorate in incrementi di milioni di token. Sebbene tu possa impostare limiti precisi, i valori inferiori a qualche milione di token potrebbero non essere riflessi con perfetta accuratezza a causa della natura della generazione di report e dell'aggregazione dei token.
I token memorizzati nella cache non vengono conteggiati ai fini delle quote.
Gestisci quote
A seconda dell'utilizzo delle risorse, potresti voler visualizzare o modificare i valori di quota dei token. Puoi utilizzare la console Google Cloud per eseguire queste attività:
Nella console Google Cloud , vai alla pagina IAM e amministrazione > Quote e limiti di sistema.
Filtra le quote inserendo
Service: BigQuery API.Cerca una quota specifica nell'elenco delle quote (ad esempio, cerca
GenAiInputTokensPerDay).Fai clic su Modifica.
Aumenta o diminuisci la quota nel riquadro Modifiche alla quota inserendo un nuovo valore.
- Se i tuoi workload richiedono una capacità superiore a quella fornita dal limite predefinito, puoi richiedere un aumento della quota.
- Se vuoi imporre un limite più rigoroso al tuo utilizzo per evitare superamenti del budget, puoi creare un override della quota per limitare l'utilizzo.
Fai clic su Invia richiesta.
Comportamento di applicazione delle quote
BigQuery monitora il consumo di token in più fasi di esecuzione della query:
- Controllo pre-esecuzione:BigQuery controlla la quota di token disponibile prima di eseguire una query che contiene funzioni di AI generativa. Se la
quota pertinente (ad esempio, i token di input giornalieri del progetto) è già esaurita,
la query viene rifiutata con un errore
QuotaExceeded. - Durante l'esecuzione:se una query è in esecuzione e consuma token in modo tale da esaurire una delle quote configurate (input o output, per progetto o per utente), le nuove chiamate LLM all'interno della query vengono rifiutate.
- Le righe rimanenti che dipendono dalle chiamate LLM generano un errore di esaurimento della quota.
- Il risultato della query dipende dall'argomento
max_error_ratiose utilizzato in funzioni comeAI.IF. Se il rapporto di errore rimane entro il limite consentito, potrebbero essere restituiti risultati parziali. In caso contrario, l'intera query non va a buon fine. - Le query successive che tentano di utilizzare le funzioni di AI generativa non andranno a buon fine e verrà visualizzato
un errore
QuotaExceededfino al ripristino della quota giornaliera.
Considerazioni importanti
- Quote globali:le quote definite sono globali. L'utilizzo dei token viene aggregato in tutte le regioni in cui opera il tuo progetto, fornendo un meccanismo di controllo dei costi unificato. In questo modo si evitano addebiti imprevisti derivanti dall'utilizzo in regioni diverse.
- Throughput sottoposto a provisioning:se utilizzi i modelli Vertex AI con throughput sottoposto a provisioning, la fatturazione non si basa sull'utilizzo dei token. Devi impostare queste quote di token BigQuery su un valore elevato per evitare di bloccare inutilmente le query.
Passaggi successivi
- Scopri di più sull'ottimizzazione dei costi della funzione AI.
- Leggi una panoramica dell'AI generativa in BigQuery.