Das dynamische gemeinsame Kontingent (DSQ) wurde eingeführt, um Ihre Pay-as-you-go-Anfragen (PayGo) flexibler an Ihre Arbeitslastanforderungen anzupassen, ohne Kontingente und Anfragen zur Kontingenterhöhung (Quota Increase Requests, QIRs) verwalten zu müssen. Bei DSQ gibt es keine vordefinierten Kontingentlimits für Ihre Nutzung. Stattdessen bietet DSQ Zugriff auf einen großen, freigegebenen Ressourcenpool, der dynamisch basierend auf der Echtzeitverfügbarkeit von Ressourcen und der Echtzeitnachfrage für alle Kunden dieses Modells zugewiesen wird. Je mehr Kunden aktiv sind, desto geringer ist der Durchsatz pro Kunde. Wenn es weniger Kunden gibt, kann der Durchsatz für jeden Kunden ebenfalls höher sein.
Unterstützte Modelle
Die folgenden Gemini-Modelle und ihre überwacht optimierten Modelle unterstützen DSQ:
- Gemini 2.5 Flash-Lite
Vorabversion - Gemini 2.0 Flash mit Live API
Vorabversion - Gemini 2.0 Flash mit Bildgenerierung
Vorabversion - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Die folgenden alten Gemini-Modelle unterstützen DSQ:
- Gemini 1.5 Pro,
- Gemini 1.5 Flash
Funktionsweise von DSQ
Das dynamische gemeinsame Kontingent (DSQ) passt sich Ihren Zugriffsmustern und Anforderungen an und minimiert Nutzungsprobleme. Der Zugriff Ihres Projekts auf Ressourcen im Rahmen des DSQ ist nicht durch eine von uns festgelegte willkürliche Zahl begrenzt. Stattdessen wird sie von der Gesamtkapazität des freigegebenen Pools und der aktuellen kollektiven Nachfrage aller Kunden bestimmt. Dieses Modell bietet eine erhebliche Flexibilität, sodass Ihre Arbeitslasten bei Bedarf mehr Ressourcen verbrauchen können. Umgekehrt haben alle Kunden des freigegebenen Pools die Möglichkeit, bei Verfügbarkeit auf Ressourcen zuzugreifen, ohne dass ein individuelles Kontingent pro Kunde konfiguriert werden muss.
Um allen Nutzern in der Umgebung mit freigegebenen Ressourcen eine faire und stabile Nutzung zu ermöglichen, wird mit dem dynamischen freigegebenen Kontingent die Verarbeitung von Anfragen intelligent verwaltet, insbesondere in Zeiten sehr hoher Nachfrage aus einzelnen Quellen. Anstatt einer festen Obergrenze verwendet DSQ einen dynamischen Ansatz zur Priorisierung. Das bedeutet, dass das System zwar für Spitzen ausgelegt ist, aber ungewöhnlich große und schnelle Spitzen bei Zugriffen von einer einzelnen Quelle möglicherweise mit einer anderen Priorität behandelt werden als gleichmäßiger, konstanter Traffic. Durch diese ausgefeilte Verwaltung werden umfangreiche Nutzeraktivitäten und regelmäßige Arbeitslasten vor vorübergehenden, extremen Spitzen geschützt, was die allgemeine Systemstabilität und einen gleichberechtigten Zugriff fördert.
Gemini-Anfragen mit multimodalen Eingaben unterliegen den entsprechenden Systemgrenzwerten für die Rate, darunter Bild, Audio, Video und Dokument.
Informationen zur Gewährleistung einer hohen Verfügbarkeit Ihrer Anwendung und zu vorhersehbaren Dienstebenen für Ihre Produktionsarbeitslasten finden Sie unter Vorabgezierter Durchsatz.
429-Fehler aufgrund von Ressourcenerschöpfung bei DSQ
Wir können verstehen, wenn Sie frustriert sind, wenn der Fehler 429 „Ressource erschöpft“ auftritt. Möglicherweise vermuten Sie dann, dass Sie ein bestimmtes Kontingent erreicht haben. Bei DSQ ist das jedoch nicht der Fall. Diese Fehler weisen darauf hin, dass der gesamte freigegebene Ressourcenpool für diesen bestimmten Typ (z.B. ein bestimmtes Modell in einer bestimmten Region) zu einem bestimmten Zeitpunkt extrem stark von vielen Nutzern gleichzeitig nachgefragt wird. Stellen Sie sich vor, Sie versuchen, während der Hauptverkehrszeit in einen sehr beliebten Zug einzusteigen. Es gibt kein Ticketlimit speziell für Sie, aber der Zug selbst ist möglicherweise vorübergehend voll. Es ist ein vorübergehender Zustand der Ressourcenkonflikt, kein festes Limit für Ihr Projekt.
DSQ arbeitet ständig daran, die verfügbare Kapazität fair und effizient zu verwalten und zu verteilen. Wenn Sie einen solchen Fehler erhalten, bedeutet das, dass die momentane Nachfrage das verfügbare Angebot in diesem gemeinsamen Pool überstiegen hat. Im Gegensatz zu einem harten Kontingent, bei dem Sie blockiert werden, auch wenn Ressourcen an anderer Stelle inaktiv sind, soll DSQ Ihnen Zugriff gewähren, wann immer Ressourcen verfügbar sind. Der Fehler „Ausschöpfung“ ist ein Spiegelbild der aktuellen Auslastung des gesamten Systems und keine Obergrenze für Ihr Konto.
Wir empfehlen, Wiederholungsmechanismen zu implementieren, da sich die Verfügbarkeit in dieser dynamischen Umgebung schnell ändern kann. Weitere Informationen zum Umgang mit Fehlern aufgrund von Ressourcenerschöpfung finden Sie im Leitfaden zum Umgang mit 429-Fehlern oder unter Fehlercode 429.
Nächste Schritte
- Weitere Informationen zu Kontingenten und Limits für Vertex AI finden Sie unter Vertex AI-Kontingente und -Limits.
- Google Cloud Weitere Informationen zu Kontingenten und Limits finden Sie unter Informationen zu Kontingentwerten und Systemlimits.