Mit den Batchvorhersagefunktionen von Gemini können Sie asynchrone, kostengünstige Vorhersagen mit hohem Durchsatz für Ihre umfangreichen Datenverarbeitungsanforderungen erstellen. In diesem Leitfaden erfahren Sie, welchen Wert die Batchvorhersage hat, wie sie funktioniert, welche Einschränkungen es gibt und welche Best Practices für optimale Ergebnisse gelten.
Vorteile von Batchvorhersagen
In vielen realen Szenarien benötigen Sie keine sofortige Antwort von einem Sprachmodell. Stattdessen haben Sie möglicherweise ein großes Dataset mit Prompts, das Sie effizient und kostengünstig verarbeiten müssen. Hier kommt die Batchvorhersage ins Spiel.
Hauptvorteile:
- Kosteneffizienz:Die Batchverarbeitung wird mit einem Rabatt von 50% im Vergleich zur Echtzeitvorhersage angeboten. Sie eignet sich daher ideal für umfangreiche, nicht dringende Aufgaben. Implizites Caching ist standardmäßig für Gemini 2.5 Pro, Gemini 2.5 Flash und Gemini 2.5 Flash-Lite aktiviert. Durch das implizite Caching erhalten Sie 75% Rabatt auf gecachte Tokens im Vergleich zu Standard-Eingabetokens. Die Rabatte für Cache und Batch können jedoch nicht kombiniert werden. Der Rabatt für eine Cache-Trefferrate von 75% hat Vorrang vor dem Batchrabatt.
- Hohe Ratenbegrenzungen:Verarbeiten Sie Hunderttausende von Anfragen in einem einzelnen Batch mit einer höheren Ratenbegrenzung als bei der Gemini API in Echtzeit.
- Vereinfachter Workflow:Anstatt eine komplexe Pipeline mit einzelnen Echtzeitanfragen zu verwalten, können Sie einen einzelnen Batchjob senden und die Ergebnisse abrufen, sobald die Verarbeitung abgeschlossen ist. Der Dienst übernimmt die Formatvalidierung, parallelisiert Anfragen für die gleichzeitige Verarbeitung und versucht automatisch, eine hohe Abschlussrate mit einer Bearbeitungszeit von 24 Stunden zu erreichen.
Batchvorhersagen sind für umfassende Verarbeitungsaufgaben wie die folgenden optimiert:
- Inhaltsgenerierung:Generieren Sie Produktbeschreibungen, Social-Media-Beiträge oder andere kreative Texte in großen Mengen.
- Datenannotation und ‑klassifizierung:Nutzerrezensionen klassifizieren, Dokumente kategorisieren oder Stimmungsanalysen für große Textmengen durchführen.
- Offlineanalyse:Artikel zusammenfassen, wichtige Informationen aus Berichten extrahieren oder Dokumente in großem Umfang übersetzen.
Gemini-Modelle, die Batchvorhersagen unterstützen
Die folgenden Basis- und abgestimmten Gemini-Modelle unterstützen Batchvorhersagen:
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Unterstützung globaler Endpunktmodelle
Die Batchvorhersage unterstützt die Verwendung des globalen Endpunkts für die Basismodelle von Gemini. Der globale Endpunkt für abgestimmte Gemini-Modelle wird nicht unterstützt.
Die öffentliche Vorschau der Unterstützung für Batchvorhersagen für globale Endpunkte unterstützt keine BigQuery-Tabellen als Ein- oder Ausgabe.
Der globale Endpunkt trägt zur Verbesserung der allgemeinen Verfügbarkeit bei, da Ihre Anfragen in jeder Region verarbeitet werden können, die vom verwendeten Modell unterstützt wird. Anforderungen an den Datenstandort werden nicht unterstützt. Wenn Sie Anforderungen an den Datenstandort haben, verwenden Sie die regionalen Endpunkte.
Kontingente und Limits
Die Batchvorhersage ist zwar leistungsstark, aber es ist wichtig, sich der folgenden Einschränkungen bewusst zu sein.
- Quota: Für Ihre Nutzung gelten keine vordefinierten Kontingentlimits. Stattdessen bietet der Batch-Dienst Zugriff auf einen großen, gemeinsam genutzten Ressourcenpool, der dynamisch auf Grundlage der Verfügbarkeit von Ressourcen und der Echtzeitnachfrage aller Kunden dieses Modells zugewiesen wird. Wenn mehr Kunden aktiv sind und unsere Kapazität überschritten wird, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.
- Wartezeit: Wenn unser Dienst stark ausgelastet ist, wird Ihr Batchjob in die Warteschlange eingereiht, bis Kapazität verfügbar ist. Der Job bleibt bis zu 72 Stunden in der Warteschlange, bevor er abläuft.
- Anfragelimits: Ein einzelner Batchjob darf bis zu 200.000 Anfragen enthalten. Wenn Sie Cloud Storage als Eingabe verwenden, gilt außerdem ein Dateigrößenlimit von 1 GB.
- Verarbeitungszeit: Batchjobs werden asynchron verarbeitet und sind nicht für Echtzeitanwendungen konzipiert. Die meisten Jobs werden innerhalb von 24 Stunden nach Beginn der Ausführung abgeschlossen (Warteschlangenzeit nicht mitgerechnet). Nach 24 Stunden werden unvollständige Aufträge abgebrochen und Ihnen werden nur abgeschlossene Anfragen in Rechnung gestellt.
- Nicht unterstützte Funktionen: Die Batchvorhersage unterstützt kein explizites Caching oder RAG. Implizites Caching für Batchvorhersagen wird in Gemini 2.0 Flash und Gemini 2.0 Flash-Lite nicht unterstützt.
Best Practices
Damit Sie die Batchvorhersage mit Gemini optimal nutzen können, empfehlen wir die folgenden Best Practices:
- Jobs kombinieren:Um den Durchsatz zu maximieren, sollten Sie kleinere Jobs innerhalb der Systemlimits zu einem großen Job zusammenfassen. Wenn Sie beispielsweise einen Batchjob mit 200.000 Anfragen senden, ist der Durchsatz höher als bei 1.000 Jobs mit jeweils 200 Anfragen.
- Jobstatus überwachen:Sie können den Jobfortschritt über die API, das SDK oder die Benutzeroberfläche überwachen. Weitere Informationen finden Sie unter Jobstatus überwachen. Wenn ein Job fehlschlägt, sehen Sie sich die Fehlermeldungen an, um das Problem zu diagnostizieren und zu beheben.
- Kosten optimieren:Nutzen Sie die Kosteneinsparungen, die durch die Batchverarbeitung für alle Aufgaben erzielt werden, die keine sofortige Antwort erfordern.
Nächste Schritte
- Batchjob mit Cloud Storage erstellen
- Batchjob mit BigQuery erstellen
- Informationen zum Optimieren eines Gemini-Modells finden Sie in der Übersicht über die Modellabstimmung für Gemini
- Weitere Informationen zur Batch-Vorhersage-API