Kosten mit Tokenkontingenten kontrollieren
In diesem Dokument wird beschrieben, wie Sie Tageslimits für die Anzahl der Eingabe- und Ausgabetokens definieren und verwalten können, die von generativen KI-Funktionen verbraucht werden.BigQuery-Funktionen für generative KI verwenden Large Language Models (LLMs), um erweiterte Analysen in Ihren SQL-Abfragen durchzuführen. Da die LLM-Nutzung in der Regel anhand der Anzahl der verarbeiteten Tokens abgerechnet wird, bietet BigQuery Tokenkontingente, mit denen Sie die Kosten für die Verwendung dieser Funktionen verwalten und kontrollieren können.
Die Tokenkontingente gelten für BigQuery-SQL
Funktionen, die für alle Inferenzaufgaben für generative KI entwickelt wurden, bei denen
Gemini-LLMs verwendet werden, z. B. die
AI.CLASSIFY
und
AI.GENERATE
Funktionen.
Kontingentdetails
BigQuery bietet die folgenden Tageskontingente basierend auf der LLM-Tokennutzung. Die Tokennutzung korreliert direkt mit der Vertex AI-Abrechnung für BigQuery-Funktionen für generative KI, die Gemini-Modelle verwenden. Diese Kontingente werden weltweit in allen Regionen erfasst.
Diese Tokenkontingente regeln die Anzahl der Eingabe- und Ausgabetokens, die von den LLMs für Funktionen für generative KI verarbeitet werden:
- Eingabetokens: Tokens, die zur Verarbeitung an das Modell gesendet werden. Dazu gehören Tokens im Prompttext und alle anderen Daten, die dem Modell als Eingabe zur Verfügung gestellt werden.
- Ausgabetokens: Tokens, die vom Modell in seiner Antwort generiert werden. Dazu gehören Tokens im generierten Text (Kandidatentokens) und Tokens, die während interner Überlegungsschritte generiert werden (Gedankentokens).
| Kontingentname | Messwert | Bereich | Standardwert |
|---|---|---|---|
GenAiInputTokensPerDay |
Vom LLM verwendete Eingabetokens | Pro Tag und Projekt | 200.000.000.000 |
GenAiInputTokensPerUserPerDay |
Vom LLM verwendete Eingabetokens | Pro Tag und Nutzer | 40.000.000.000 |
GenAiOutputTokensPerDay |
Vom LLM verwendete Ausgabe- und Gedankentokens | Pro Tag und Projekt | 20.000.000.000 |
GenAiOutputTokensPerUserPerDay |
Vom LLM verwendete Ausgabe- und Gedankentokens | Pro Tag und Nutzer | 4.000.000.000 |
Diese Kontingente werden in Schritten von Millionen von Tokens erfasst. Sie können zwar genaue Limits festlegen, aber Werte unter einigen Millionen Tokens werden aufgrund der Art der Tokenberichterstellung und -aggregation möglicherweise nicht mit perfekter Genauigkeit widergespiegelt.
Tokens im Cache werden nicht auf die Kontingente angerechnet.
Kontingente verwalten
Je nach Ressourcennutzung möchten Sie möglicherweise Ihre Tokenkontingentwerte aufrufen oder anpassen. In der Google Cloud Console können Sie diese Aufgaben ausführen:
Gehen Sie in der Google Cloud Console zu IAM und Verwaltung > Kontingente und System limits.
Filtern Sie die Kontingente, indem Sie
Service: BigQuery APIeingeben.Suchen Sie in der Liste der Kontingente nach einem bestimmten Kontingent (z. B. nach
GenAiInputTokensPerDay).Klicken Sie auf Bearbeiten.
Erhöhen oder verringern Sie das Kontingent im Bereich Kontingentänderungen , indem Sie einen neuen Wert eingeben.
- Wenn Ihre Arbeitslasten mehr Kapazität erfordern als das Standardlimit bietet, können Sie eine Kontingenterhöhung anfordern.
- Wenn Sie die Nutzung strenger begrenzen möchten, um Budget überschreitungen zu vermeiden, können Sie eine Kontingentüberschreibung erstellen um die Nutzung zu begrenzen.
Klicken Sie auf Anfrage senden.
Verhalten bei der Kontingenterzwingung
BigQuery überwacht den Tokenverbrauch in mehreren Phasen der Abfrageausführung:
- Prüfung vor der Ausführung:BigQuery prüft das verfügbare Tokenkontingent, bevor eine Abfrage ausgeführt wird, die Funktionen für generative KI enthält. Wenn das entsprechende Kontingent (z. B. tägliche Eingabetokens für das Projekt) bereits ausgeschöpft ist, wird die Abfrage mit einem
QuotaExceeded-Fehler abgelehnt. - Während der Ausführung:Wenn eine Abfrage ausgeführt wird und Tokens verbraucht, sodass eines der konfigurierten Kontingente (Eingabe oder Ausgabe, pro Projekt oder pro Nutzer) ausgeschöpft wird, werden neue LLM-Aufrufe in dieser Abfrage abgelehnt.
- Für alle verbleibenden Zeilen, die von LLM-Aufrufen abhängen, wird ein Fehler aufgrund der Kontingentüberschreitung ausgegeben.
- Das Ergebnis der Abfrage hängt vom Argument
max_error_ratioab, wenn es in Funktionen wieAI.IFverwendet wird. Wenn das Fehlerverhältnis innerhalb des zulässigen Limits bleibt, werden möglicherweise Teilergebnisse zurückgegeben. Andernfalls schlägt die gesamte Abfrage fehl. - Nachfolgende Abfragen, die Funktionen für generative KI verwenden möchten, schlagen mit einem
QuotaExceeded-Fehler fehl, bis das Tageskontingent zurückgesetzt wird.
Was Sie bedenken sollten
- Globale Kontingente:Die definierten Kontingente sind global. Die Tokennutzung wird in allen Regionen zusammengefasst, in denen Ihr Projekt ausgeführt wird. So wird ein einheitlicher Mechanismus zur Kostenkontrolle bereitgestellt. Dadurch werden unerwartete Kosten durch die Nutzung in verschiedenen Regionen vermieden.
- Bereitgestellter Durchsatz:Wenn Sie Vertex AI-Modelle mit bereitgestelltem Durchsatz verwenden, basiert die Abrechnung nicht auf der Tokennutzung. Sie sollten diese BigQuery-Tokenkontingente auf einen hohen Wert festlegen, um zu vermeiden, dass Ihre Abfragen unnötig blockiert werden.
Nächste Schritte
- Weitere Informationen zum Optimieren der Kosten für KI-Funktionen.
- Lesen Sie eine Übersicht über generative KI in BigQuery.