Kosten mit Tokenkontingenten kontrollieren

In diesem Dokument wird beschrieben, wie Sie Tageslimits für die Anzahl der Eingabe- und Ausgabetokens definieren und verwalten können, die von generativen KI-Funktionen verbraucht werden.

BigQuery-Funktionen für generative KI verwenden Large Language Models (LLMs), um erweiterte Analysen in Ihren SQL-Abfragen durchzuführen. Da die LLM-Nutzung in der Regel anhand der Anzahl der verarbeiteten Tokens abgerechnet wird, bietet BigQuery Tokenkontingente, mit denen Sie die Kosten für die Verwendung dieser Funktionen verwalten und kontrollieren können.

Die Tokenkontingente gelten für BigQuery-SQL Funktionen, die für alle Inferenzaufgaben für generative KI entwickelt wurden, bei denen Gemini-LLMs verwendet werden, z. B. die AI.CLASSIFY und AI.GENERATE Funktionen.

Kontingentdetails

BigQuery bietet die folgenden Tageskontingente basierend auf der LLM-Tokennutzung. Die Tokennutzung korreliert direkt mit der Vertex AI-Abrechnung für BigQuery-Funktionen für generative KI, die Gemini-Modelle verwenden. Diese Kontingente werden weltweit in allen Regionen erfasst.

Diese Tokenkontingente regeln die Anzahl der Eingabe- und Ausgabetokens, die von den LLMs für Funktionen für generative KI verarbeitet werden:

  • Eingabetokens: Tokens, die zur Verarbeitung an das Modell gesendet werden. Dazu gehören Tokens im Prompttext und alle anderen Daten, die dem Modell als Eingabe zur Verfügung gestellt werden.
  • Ausgabetokens: Tokens, die vom Modell in seiner Antwort generiert werden. Dazu gehören Tokens im generierten Text (Kandidatentokens) und Tokens, die während interner Überlegungsschritte generiert werden (Gedankentokens).
Kontingentname Messwert Bereich Standardwert
GenAiInputTokensPerDay Vom LLM verwendete Eingabetokens Pro Tag und Projekt 200.000.000.000
GenAiInputTokensPerUserPerDay Vom LLM verwendete Eingabetokens Pro Tag und Nutzer 40.000.000.000
GenAiOutputTokensPerDay Vom LLM verwendete Ausgabe- und Gedankentokens Pro Tag und Projekt 20.000.000.000
GenAiOutputTokensPerUserPerDay Vom LLM verwendete Ausgabe- und Gedankentokens Pro Tag und Nutzer 4.000.000.000

Diese Kontingente werden in Schritten von Millionen von Tokens erfasst. Sie können zwar genaue Limits festlegen, aber Werte unter einigen Millionen Tokens werden aufgrund der Art der Tokenberichterstellung und -aggregation möglicherweise nicht mit perfekter Genauigkeit widergespiegelt.

Tokens im Cache werden nicht auf die Kontingente angerechnet.

Kontingente verwalten

Je nach Ressourcennutzung möchten Sie möglicherweise Ihre Tokenkontingentwerte aufrufen oder anpassen. In der Google Cloud Console können Sie diese Aufgaben ausführen:

  1. Gehen Sie in der Google Cloud Console zu IAM und Verwaltung > Kontingente und System limits.

    Zur Seite „Kontingente und Systemlimits“

  2. Filtern Sie die Kontingente, indem Sie Service: BigQuery API eingeben.

  3. Suchen Sie in der Liste der Kontingente nach einem bestimmten Kontingent (z. B. nach GenAiInputTokensPerDay).

  4. Klicken Sie auf Bearbeiten.

  5. Erhöhen oder verringern Sie das Kontingent im Bereich Kontingentänderungen , indem Sie einen neuen Wert eingeben.

  6. Klicken Sie auf Anfrage senden.

Verhalten bei der Kontingenterzwingung

BigQuery überwacht den Tokenverbrauch in mehreren Phasen der Abfrageausführung:

  • Prüfung vor der Ausführung:BigQuery prüft das verfügbare Tokenkontingent, bevor eine Abfrage ausgeführt wird, die Funktionen für generative KI enthält. Wenn das entsprechende Kontingent (z. B. tägliche Eingabetokens für das Projekt) bereits ausgeschöpft ist, wird die Abfrage mit einem QuotaExceeded-Fehler abgelehnt.
  • Während der Ausführung:Wenn eine Abfrage ausgeführt wird und Tokens verbraucht, sodass eines der konfigurierten Kontingente (Eingabe oder Ausgabe, pro Projekt oder pro Nutzer) ausgeschöpft wird, werden neue LLM-Aufrufe in dieser Abfrage abgelehnt.
    • Für alle verbleibenden Zeilen, die von LLM-Aufrufen abhängen, wird ein Fehler aufgrund der Kontingentüberschreitung ausgegeben.
    • Das Ergebnis der Abfrage hängt vom Argument max_error_ratio ab, wenn es in Funktionen wie AI.IF verwendet wird. Wenn das Fehlerverhältnis innerhalb des zulässigen Limits bleibt, werden möglicherweise Teilergebnisse zurückgegeben. Andernfalls schlägt die gesamte Abfrage fehl.
    • Nachfolgende Abfragen, die Funktionen für generative KI verwenden möchten, schlagen mit einem QuotaExceeded-Fehler fehl, bis das Tageskontingent zurückgesetzt wird.

Was Sie bedenken sollten

  • Globale Kontingente:Die definierten Kontingente sind global. Die Tokennutzung wird in allen Regionen zusammengefasst, in denen Ihr Projekt ausgeführt wird. So wird ein einheitlicher Mechanismus zur Kostenkontrolle bereitgestellt. Dadurch werden unerwartete Kosten durch die Nutzung in verschiedenen Regionen vermieden.
  • Bereitgestellter Durchsatz:Wenn Sie Vertex AI-Modelle mit bereitgestelltem Durchsatz verwenden, basiert die Abrechnung nicht auf der Tokennutzung. Sie sollten diese BigQuery-Tokenkontingente auf einen hohen Wert festlegen, um zu vermeiden, dass Ihre Abfragen unnötig blockiert werden.

Nächste Schritte