Mit der Batchinferenz von Gemini (ehemals Batch-Vorhersage) erhalten Sie eine asynchrone, kostengünstige Inferenz mit hohem Durchsatz für Ihre umfangreichen Datenverarbeitungsanforderungen. In diesem Leitfaden erfahren Sie mehr über den Wert der Batchinferenz, ihre Funktionsweise, ihre Einschränkungen und Best Practices für optimale Ergebnisse.
Vorteile der Batchinferenz
In vielen realen Szenarien benötigen Sie keine sofortige Antwort von einem Language Model. Stattdessen haben Sie möglicherweise ein großes Dataset mit Prompts, das Sie effizient und kostengünstig verarbeiten müssen. Hier kommt die Batchinferenz ins Spiel.
Das hat unter anderem die folgenden Vorteile:
- Kosteneffizienz:Die Batchverarbeitung wird mit einem Rabatt von 50% im Vergleich zur Echtzeitinferenz angeboten. Sie eignet sich daher ideal für umfangreiche, nicht dringende Aufgaben. Die implizite Cache-Funktion ist standardmäßig für Gemini 2.5 Pro, Gemini 2.5 Flash und Gemini 2.5 Flash Lite aktiviert. Mit der impliziten Cache-Funktion erhalten Sie einen Rabatt von 90% auf im Cache gespeicherte Tokens im Vergleich zu Standard-Eingabetokens. Die Rabatte für Cache und Batch sind jedoch nicht kombinierbar. Der Rabatt von 90% für Cache-Treffer hat Vorrang vor dem Batchrabatt.
- Hohe Ratenbegrenzungen:Sie können Hunderttausende von Anfragen in einem einzelnen Batch mit einer höheren Ratenbegrenzung als bei der Gemini API in Echtzeit verarbeiten.
- Vereinfachter Workflow:Anstatt eine komplexe Pipeline einzelner Echtzeitanfragen zu verwalten, können Sie einen einzelnen Batchjob senden und die Ergebnisse abrufen, sobald die Verarbeitung abgeschlossen ist. Der Dienst übernimmt die Formatvalidierung, parallelisiert Anfragen für die gleichzeitige Verarbeitung und versucht automatisch, eine hohe Abschlussrate mit einer Bearbeitungszeit von 24 Stunden zu erreichen.
Die Batchinferenz ist für umfangreiche Verarbeitungsaufgaben wie die folgenden optimiert:
- Inhaltsgenerierung:Sie können Produktbeschreibungen, Beiträge für soziale Medien oder andere kreative Texte in großen Mengen generieren.
- Datenannotation und ‑klassifizierung:Sie können Nutzerrezensionen klassifizieren, Dokumente kategorisieren oder eine Sentimentanalyse für einen großen Textkorpus durchführen.
- Offlineanalyse:Sie können Artikel zusammenfassen, wichtige Informationen aus Berichten extrahieren oder Dokumente in großem Umfang übersetzen.
Gemini-Modelle, die die Batchinferenz unterstützen
Die folgenden Basis- und optimierten Gemini-Modelle unterstützen die Batchinferenz:
- Gemini 3.1 Flash Lite
- Gemini 3.1 Flash Image
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro Image
- Gemini 2.5 Pro
- Gemini 2.5 Flash Image
- Gemini 2.5 Flash
- Gemini 2.5 Flash Lite
Unterstützung für globale Endpunkte
Die Batchinferenz unterstützt die Verwendung des globalen Endpunkts für Basis-Gemini-Modelle. Für optimierte Gemini-Modelle wird der globale Endpunkt nicht unterstützt.
Der globale Endpunkt trägt dazu bei, die allgemeine Verfügbarkeit zu verbessern, indem Ihre Anfragen von jeder Region aus verarbeitet werden, die vom verwendeten Modell unterstützt wird. Anforderungen an den Datenstandort werden nicht unterstützt. Wenn Sie Anforderungen an den Datenstandort haben, verwenden Sie die regionalen Endpunkte.
Kontingente und Limits
Die Batchinferenz ist zwar leistungsstark, aber es ist wichtig, sich der folgenden Einschränkungen bewusst zu sein.
- Quota: Für Ihre Nutzung gelten keine vordefinierten Kontingentlimits. Stattdessen bietet der Batchdienst Zugriff auf einen großen, freigegebenen Ressourcenpool, der dynamisch auf Grundlage der Verfügbarkeit von Ressourcen und der Echtzeitnachfrage aller Kunden dieses Modells zugewiesen wird. Wenn mehr Kunden aktiv sind und unsere Kapazität ausgelastet ist, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.
- Wartezeit: Wenn unser Dienst stark ausgelastet ist, wird Ihr Batchjob in die Warteschlange gestellt. Der Job bleibt bis zu 72 Stunden in der Warteschlange, bevor er abläuft.
- Anfragelimits: Ein einzelner Batchjob kann bis zu 200.000 Anfragen enthalten. Wenn Sie Cloud Storage als Eingabe verwenden, gilt außerdem ein Dateigrößenlimit von 1 GB.
- Verarbeitungszeit: Batchjobs werden asynchron verarbeitet und sind nicht für Echtzeitanwendungen konzipiert. Die meisten Jobs werden innerhalb von 24 Stunden nach dem Start abgeschlossen (ohne Wartezeit in der Warteschlange). Nach 24 Stunden werden unvollständige Jobs abgebrochen und Ihnen werden nur die abgeschlossenen Anfragen in Rechnung gestellt.
- Abgebrochene Jobs: Sie können Batchinferenzjobs jederzeit abbrechen. Wenn Sie einen Job abbrechen, wird die verbleibende Arbeit abgebrochen und alle bereits abgeschlossenen Arbeiten werden zurückgegeben. Ihnen wird nur die abgeschlossene Arbeit in Rechnung gestellt.
- Nicht unterstützte Funktionen: Die Batchinferenz unterstützt keinen bereitgestellten Durchsatz, keine explizite Cache-Funktion und keine RAG. Die implizite Cache-Funktion für die Batchinferenz wird in Gemini 2.0 Flash oder Gemini 2.0 Flash Lite nicht unterstützt.
- Bildausgabe: Die Batchinferenz ist auf die Standardauflösung von 1K begrenzt. Ausgaben in 2K und 4K werden nicht unterstützt.
Best Practices
Damit Sie die Batchinferenz mit Gemini optimal nutzen können, empfehlen wir die folgenden Best Practices:
- Jobs kombinieren:Um den Durchsatz zu maximieren, kombinieren Sie kleinere Jobs innerhalb der Systemlimits zu einem großen Job. Wenn Sie beispielsweise einen Batchjob mit 200.000 Anfragen senden, erzielen Sie einen besseren Durchsatz als mit 1.000 Jobs mit jeweils 200 Anfragen.
- Jobstatus überwachen:Sie können den Jobfortschritt über die API, das SDK oder die UI überwachen. Weitere Informationen finden Sie unter Jobstatus überwachen. Wenn ein Job fehlschlägt, prüfen Sie die Fehlermeldungen, um das Problem zu diagnostizieren und zu beheben.
- Kosten optimieren:Nutzen Sie die Kosteneinsparungen, die die Batchverarbeitung für alle Aufgaben bietet, für die keine sofortige Antwort erforderlich ist.
Nächste Schritte
- Batchjob mit Cloud Storage erstellen
- Batchjob mit BigQuery erstellen
- Informationen zum Optimieren eines Gemini-Modells finden Sie in der Übersicht über die Modellabstimmung für Gemini
- Weitere Informationen zur Batch-Vorhersage-API.