Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Batch-Inferenz mit Gemini

Mit der Batchinferenz von Gemini (ehemals Batch-Vorhersage) erhalten Sie eine asynchrone, kostengünstige Inferenz mit hohem Durchsatz für Ihre umfangreichen Datenverarbeitungsanforderungen. In diesem Leitfaden erfahren Sie mehr über die Vorteile der Batchinferenz, ihre Funktionsweise, ihre Einschränkungen und Best Practices für optimale Ergebnisse.

Vorteile der Batchinferenz

In vielen realen Szenarien benötigen Sie keine sofortige Antwort von einem Language Model. Stattdessen haben Sie möglicherweise ein großes Dataset mit Prompts, das Sie effizient und kostengünstig verarbeiten müssen. Hier kommt die Batchinferenz ins Spiel.

Wichtige Vorteile:

Kosteneffizienz:Die Batchverarbeitung wird mit einem Rabatt von 50% im Vergleich zur Echtzeitinferenz angeboten und ist daher ideal für umfangreiche, nicht dringende Aufgaben. Das implizite Caching ist standardmäßig für Gemini 2.5- und Gemini 3-Modelle aktiviert. Das implizite Caching bietet einen Rabatt von 90% auf zwischengespeicherte Tokens im Vergleich zu Standard-Eingabetokens. Die Rabatte für Cache und Batch sind jedoch nicht kombinierbar. Der Rabatt von 90% für Cache-Treffer hat Vorrang vor dem Batchrabatt.
Hohe Ratenbegrenzungen: Verarbeiten Sie Hunderttausende von Anfragen in einem einzelnen Batch mit einer höheren Ratenbegrenzung als bei der Gemini API in Echtzeit.
Vereinfachter Workflow: Anstatt eine komplexe Pipeline einzelner Echtzeitanfragen zu verwalten, können Sie einen einzelnen Batchjob senden und die Ergebnisse abrufen, sobald die Verarbeitung abgeschlossen ist. Der Dienst übernimmt die Formatvalidierung, parallelisiert Anfragen für die gleichzeitige Verarbeitung und versucht automatisch, eine hohe Abschlussrate mit einer Bearbeitungszeit von 24 Stunden zu erreichen.

Die Batchinferenz ist für umfangreiche Verarbeitungsaufgaben wie die folgenden optimiert:

Content-Generierung:Erstellen Sie Produktbeschreibungen, Social-Media-Posts oder andere kreative Texte in großen Mengen.
Datenannotation und ‑klassifizierung:Klassifizieren Sie Nutzerrezensionen, kategorisieren Sie Dokumente oder führen Sie eine Sentimentanalyse für eine große Menge von Texten durch.
Offline-Analyse:Fassen Sie Artikel zusammen, extrahieren Sie wichtige Informationen aus Berichten oder übersetzen Sie Dokumente in großem Umfang.

Gemini-Modelle, die die Batchinferenz unterstützen

Die folgenden Basis- und abgestimmten Gemini-Modelle unterstützen die Batchinferenz:

Unterstützung für globale Endpunkte

Die Batchinferenz unterstützt die Verwendung des globalen Endpunkts für Basis-Gemini-Modelle. Für abgestimmte Gemini-Modelle wird der globale Endpunkt nicht unterstützt.

Der globale Endpunkt trägt dazu bei, die allgemeine Verfügbarkeit zu verbessern, indem Ihre Anfragen von jeder Region aus verarbeitet werden, die vom verwendeten Modell unterstützt wird. Anforderungen an den Datenstandort werden nicht unterstützt. Wenn Sie Anforderungen an den Datenstandort haben, verwenden Sie die regionalen Endpunkte.

Kontingente und Limits

Die Batchinferenz ist zwar leistungsstark, aber es ist wichtig, sich der folgenden Einschränkungen bewusst zu sein.

Quota: Für Ihre Nutzung gibt es keine vordefinierten Kontingentlimits. Stattdessen bietet der Batchdienst Zugriff auf einen großen, freigegebenen Ressourcenpool, der dynamisch auf Grundlage der Verfügbarkeit von Ressourcen und der Echtzeitnachfrage aller Kunden dieses Modells zugewiesen wird. Wenn mehr Kunden aktiv sind und unsere Kapazität ausgelastet ist, werden Ihre Batchanfragen möglicherweise in die Warteschlange gestellt.
Wartezeit: Wenn unser Dienst stark ausgelastet ist, wird Ihr Batchjob in die Warteschlange gestellt. Der Job bleibt bis zu 72 Stunden in der Warteschlange, bevor er abläuft.
Anfragelimits: Ein einzelner Batchjob kann bis zu 200.000 Anfragen enthalten. Wenn Sie Cloud Storage als Eingabe verwenden, gilt außerdem ein Dateigrößenlimit von 1 GB.
Verarbeitungszeit: Batchjobs werden asynchron verarbeitet und sind nicht für Echtzeitanwendungen konzipiert. Die meisten Jobs werden innerhalb von 24 Stunden nach dem Start abgeschlossen (ohne Wartezeit in der Warteschlange). Nach 24 Stunden werden unvollständige Jobs abgebrochen und Ihnen werden nur die abgeschlossenen Anfragen in Rechnung gestellt.
Abgebrochene Jobs: Sie können Batchinferenzjobs jederzeit abbrechen. Wenn Sie einen Job abbrechen, wird die verbleibende Arbeit abgebrochen und alle bereits abgeschlossenen Arbeiten werden zurückgegeben. Ihnen wird nur die abgeschlossene Arbeit in Rechnung gestellt.
Nicht unterstützte Funktionen: Die Batchinferenz unterstützt keinen bereitgestellten Durchsatz, kein explizites Caching und keine RAG. Das implizite Caching für die Batchinferenz wird in Gemini 2.0 Flash oder Gemini 2.0 Flash-Lite nicht unterstützt.
Bildausgabe: Die Batchinferenz ist auf die Standardauflösung von 1K begrenzt. 2K- und 4K-Ausgaben werden nicht unterstützt.

Best Practices

Damit Sie die Batchinferenz mit Gemini optimal nutzen können, empfehlen wir die folgenden Best Practices:

Jobs kombinieren:Um den Durchsatz zu maximieren, kombinieren Sie kleinere Jobs innerhalb der Systemlimits zu einem großen Job. Wenn Sie beispielsweise einen Batchjob mit 200.000 Anfragen senden, erzielen Sie einen besseren Durchsatz als mit 1.000 Jobs mit jeweils 200 Anfragen.
Jobstatus überwachen:Sie können den Jobfortschritt über die API, das SDK oder die UI überwachen. Weitere Informationen finden Sie unter Jobstatus überwachen. Wenn ein Job fehlschlägt, prüfen Sie die Fehlermeldungen, um das Problem zu diagnostizieren und zu beheben.
Kosten optimieren:Nutzen Sie die Kosteneinsparungen, die die Batchverarbeitung für alle Aufgaben bietet, für die keine sofortige Antwort erforderlich ist.