Mit der Batchinferenz von Gemini (früher als Batchvorhersage bezeichnet) erhalten Sie asynchrone, kostengünstige Inferenz mit hohem Durchsatz für Ihre Anforderungen an die Verarbeitung großer Datenmengen. In diesem Leitfaden erfahren Sie mehr über den Wert der Batch-Inferenz, ihre Funktionsweise, ihre Einschränkungen und Best Practices für optimale Ergebnisse.
Vorteile der Batchinferenz
In vielen realen Szenarien benötigen Sie keine sofortige Antwort von einem Sprachmodell. Stattdessen haben Sie möglicherweise ein großes Dataset mit Prompts, das Sie effizient und kostengünstig verarbeiten müssen. Hier kommt die Batchinferenz ins Spiel.
Hauptvorteile:
- Kosteneffizienz:Die Batchverarbeitung wird mit einem Rabatt von 50% im Vergleich zur Echtzeitinferenz angeboten. Sie eignet sich daher ideal für umfangreiche, nicht dringende Aufgaben. Implizites Caching ist standardmäßig für Gemini 2.5 Pro, Gemini 2.5 Flash und Gemini 2.5 Flash-Lite aktiviert. Durch das implizite Caching erhalten Sie einen Rabatt von 90% auf gecachte Tokens im Vergleich zu Standard-Eingabetokens. Die Rabatte für Cache und Batch lassen sich jedoch nicht kombinieren. Der Rabatt für 90% Cache-Treffer hat Vorrang vor dem Batchrabatt.
- Hohe Ratenbegrenzungen:Verarbeiten Sie Hunderttausende von Anfragen in einem einzelnen Batch mit einer höheren Ratenbegrenzung als bei der Gemini API in Echtzeit.
- Vereinfachter Workflow:Anstatt eine komplexe Pipeline mit einzelnen Echtzeitanfragen zu verwalten, können Sie einen einzelnen Batch-Job senden und die Ergebnisse abrufen, sobald die Verarbeitung abgeschlossen ist. Der Dienst übernimmt die Formatvalidierung, parallelisiert Anfragen für die gleichzeitige Verarbeitung und versucht automatisch, eine hohe Abschlussrate mit einer Bearbeitungszeit von 24 Stunden zu erreichen.
Die Batchinferenz ist für umfangreiche Verarbeitungsaufgaben wie die folgenden optimiert:
- Inhaltsgenerierung:Generieren Sie Produktbeschreibungen, Social-Media-Beiträge oder andere kreative Texte in großen Mengen.
- Datenannotation und ‑klassifizierung:Nutzerrezensionen klassifizieren, Dokumente kategorisieren oder Sentimentanalysen für große Textmengen durchführen.
- Offlineanalyse:Artikel zusammenfassen, wichtige Informationen aus Berichten extrahieren oder Dokumente in großem Umfang übersetzen.
Gemini-Modelle, die Batch-Inferenz unterstützen
Die folgenden Basis- und abgestimmten Gemini-Modelle unterstützen die Batchinferenz:
- Gemini 3 Pro Vorschaumodell
- Gemini 3 Pro Image Vorschaumodell
- Gemini 2.5 Pro
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Unterstützung von Modellen für globale Endpunkte
Die Batch-Inferenz unterstützt die Verwendung des globalen Endpunkts für Basis-Gemini-Modelle. Der globale Endpunkt für abgestimmte Gemini-Modelle wird nicht unterstützt.
Die öffentliche Vorschau der Unterstützung für Batchinferenz für globale Endpunkte unterstützt keine BigQuery-Tabellen als Eingabe oder Ausgabe.
Der globale Endpunkt trägt zur Verbesserung der allgemeinen Verfügbarkeit bei, da Ihre Anfragen in jeder Region verarbeitet werden können, die vom verwendeten Modell unterstützt wird. Anforderungen an den Datenstandort werden nicht unterstützt. Wenn Sie Anforderungen an den Datenstandort haben, verwenden Sie die regionalen Endpunkte.
Kontingente und Limits
Die Batchinferenz ist zwar leistungsstark, aber es ist wichtig, sich der folgenden Einschränkungen bewusst zu sein.
- Quota: Für Ihre Nutzung gelten keine vordefinierten Kontingentlimits. Stattdessen bietet der Batch-Dienst Zugriff auf einen großen, gemeinsam genutzten Ressourcenpool, der dynamisch auf Grundlage der Verfügbarkeit von Ressourcen und der Echtzeitnachfrage aller Kunden dieses Modells zugewiesen wird. Wenn mehr Kunden aktiv sind und unsere Kapazität überschritten wird, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.
- Wartezeit: Wenn unser Dienst stark ausgelastet ist, wird Ihr Batchjob in die Warteschlange eingereiht. Der Job bleibt bis zu 72 Stunden in der Warteschlange, bevor er abläuft.
- Anfragelimits: Ein einzelner Batchjob darf bis zu 200.000 Anfragen enthalten. Wenn Sie Cloud Storage als Eingabe verwenden, gilt außerdem ein Dateigrößenlimit von 1 GB.
- Verarbeitungszeit: Batchjobs werden asynchron verarbeitet und sind nicht für Echtzeitanwendungen konzipiert. Die meisten Jobs werden innerhalb von 24 Stunden nach Beginn der Ausführung abgeschlossen (Warteschlangenzeit nicht mitgerechnet). Nach 24 Stunden werden unvollständige Aufträge abgebrochen und Ihnen werden nur abgeschlossene Anfragen in Rechnung gestellt.
- Nicht unterstützte Funktionen: Die Batchinferenz unterstützt keine explizite Zwischenspeicherung oder RAG. Implizites Caching für die Batchinferenz wird in Gemini 2.0 Flash und Gemini 2.0 Flash-Lite nicht unterstützt.
Best Practices
Damit Sie die Batch-Inferenz mit Gemini optimal nutzen können, empfehlen wir die folgenden Best Practices:
- Jobs kombinieren:Um den Durchsatz zu maximieren, sollten Sie kleinere Jobs innerhalb der Systemlimits zu einem großen Job zusammenfassen. Wenn Sie beispielsweise einen Batchjob mit 200.000 Anfragen senden, ist der Durchsatz höher als bei 1.000 Jobs mit jeweils 200 Anfragen.
- Jobstatus überwachen:Sie können den Jobfortschritt über die API, das SDK oder die Benutzeroberfläche überwachen. Weitere Informationen finden Sie unter Jobstatus überwachen. Wenn ein Job fehlschlägt, sehen Sie sich die Fehlermeldungen an, um das Problem zu diagnostizieren und zu beheben.
- Kosten optimieren:Nutzen Sie die Kosteneinsparungen, die durch die Batchverarbeitung für alle Aufgaben erzielt werden, die keine sofortige Antwort erfordern.
Nächste Schritte
- Batchjob mit Cloud Storage erstellen
- Batchjob mit BigQuery erstellen
- Informationen zum Optimieren eines Gemini-Modells finden Sie in der Übersicht über die Modellabstimmung für Gemini
- Weitere Informationen zur Batch-Vorhersage-API