Mit Kontext-Caching können Sie die Kosten und Latenz von Anfragen an Gemini reduzieren, die wiederholte Inhalte enthalten. Die Gemini Enterprise Agent Platform bietet zwei Arten von Caching:
- Implizites Caching:Standardmäßig aktiviertes automatisches Caching, mit dem Sie bei Cache-Treffern Kosten sparen.
- Explizites Caching:Manuelles Caching, das mit der Gemini Enterprise API aktiviert wird. Dabei deklarieren Sie explizit die Inhalte, die Sie im Cache speichern möchten, und ob Ihre Prompts auf die im Cache gespeicherten Inhalte verweisen sollen.
Sowohl beim impliziten als auch beim expliziten Caching gibt das cachedContentTokenCount
Feld in den Metadaten Ihrer Antwort die Anzahl der Tokens im im Cache gespeicherten
Teil Ihrer Eingabe an.
Speicherkosten für Caching
Sowohl beim impliziten als auch beim expliziten Caching werden Ihnen die Eingabetokens, die zum Erstellen des Cache verwendet wurden, zum Standardpreis für Eingabetokens in Rechnung gestellt. Beim expliziten Caching fallen außerdem Speicherkosten an, die davon abhängen, wie lange Caches gespeichert werden. Beim impliziten Caching fallen keine Speicherkosten an. Weitere Informationen finden Sie unter Preise für die Agent Platform.
Implizites Caching
Für alle Google Cloud Projekte ist standardmäßig implizites Caching aktiviert. Beim impliziten Caching erhalten Sie im Vergleich zu Standard-Eingabetokens einen Rabatt von 90% auf im Cache gespeicherte Tokens.
Wenn diese Option aktiviert ist, werden die Kosteneinsparungen durch implizite Cache-Treffer automatisch an Sie weitergegeben. So erhöhen Sie die Wahrscheinlichkeit eines impliziten Cache-Treffers:
- Platzieren Sie große und häufig verwendete Inhalte am Anfang Ihres Prompts.
- Senden Sie Anfragen mit einem ähnlichen Präfix innerhalb kurzer Zeit.
Unterstützte Modelle
Implizites Caching wird bei Verwendung der folgenden Modelle unterstützt:
- Gemini 3.5 Flash
- Gemini 3.1 Flash Lite
- Gemini 3 Flash
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash Lite
Implizites Caching unterstützt auch die neuesten Aliase, darunter:
gemini-flash-latestgemini-flash-lite-latest
Implizites Caching unterstützt auch offene Modelle. Weitere Informationen finden Sie unter Offene Modelle der Agent Platform für MaaS.
Explizites Caching
Explizites Caching bietet mehr Kontrolle und einen Rabatt auf Eingabetokens, die auf einen vorhandenen Kontext-Cache verweisen. Bei Gemini 2.5-Modellen oder höher beträgt dieser Rabatt 90 %, bei Gemini 2.0-Modellen 75%.
Mit der Gemini Enterprise API haben Sie folgende Möglichkeiten:
- Kontext-Caches erstellen und effektiver verwalten
- Einen Kontext-Cache verwenden, indem Sie mit dem Ressourcennamen in einer Prompt-Anfrage auf dessen Inhalt verweisen.
- Die Ablaufzeit (Time to Live, TTL) eines Kontext-Cache über die Standardeinstellung von 60 Minuten hinaus verlängern.
- Einen Kontext-Cache löschen, wenn er nicht mehr benötigt wird.
Sie können die Gemini Enterprise API auch verwenden, um Informationen zu einem Kontext-Cache abzurufen.
Explizite Caches interagieren mit dem impliziten Caching, was dazu führen kann, dass zusätzliche Inhalte im Cache gespeichert werden, die über die angegebenen Inhalte hinausgehen, wenn ein Cache erstellt wird. Wenn Sie die Aufbewahrung von Cache-Daten verhindern möchten, deaktivieren Sie das implizite Caching und erstellen Sie keine expliziten Caches. Weitere Informationen finden Sie unter Caching aktivieren und deaktivieren.
Unterstützte Modelle
Explizites Caching wird bei Verwendung der folgenden Modelle unterstützt:
- Gemini 3.5 Flash
- Gemini 3.1 Flash Lite
- Gemini 3 Flash
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash Lite
Explizites Caching unterstützt auch die neuesten Aliase, darunter:
gemini-flash-latestgemini-flash-lite-latest
Wann Kontext-Caching verwendet werden sollte
Kontext-Caching eignet sich besonders für Szenarien, bei denen in nachfolgenden Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird.
Im Cache gespeicherte Kontextelemente, z. B. große Textmengen, Audio- oder Videodateien, können in Prompt-Anfragen an die Gemini API genutzt werden, um Ausgaben zu generieren. Anfragen, die im Prompt denselben Cache verwenden, weisen auch den für Prompts einmaligen Text auf. Zum Beispiel kann jede Prompt-Anfrage, die eine Chat-Unterhaltung bildet, denselben Kontext-Cache enthalten, der auf ein Video verweist, zusammen mit einzigartigem Text, der jede Runde im Chat bildet.
Ziehen Sie die Verwendung von Kontext-Caching für Anwendungsfälle wie diese in Betracht:
- Chatbots mit ausführlichen Systemanweisungen
- Wiederholte Analyse langer Videodateien
- Wiederkehrende Abfragen großer Dokumentgruppen
- Häufige Analyse von Code-Repositories oder Fehlerbehebung
Implizites und explizites Caching werden mit bereitgestelltem Durchsatz in der Vorschau unterstützt. Weitere Informationen finden Sie im Leitfaden zum bereitgestellten Durchsatz. Caches funktionieren für alle Arten von Traffic. Ein Cache, der bei Verwendung des bereitgestellten Durchsatzes erstellt wurde, funktioniert beispielsweise auch mit der nutzungsabhängigen Bezahlung.
Verfügbarkeit
Kontext-Caching ist in Regionen verfügbar, in denen generative KI in der Gemini Enterprise Agent Platform verfügbar ist. Weitere Informationen finden Sie unter Standorte für generative KI in der Gemini Enterprise Agent Platform.
Limits
Die Inhalte, die Sie explizit im Cache speichern, müssen die in der folgenden Tabelle aufgeführten Limits einhalten:
| Limits für Kontext-Caching | |
|---|---|
Mindestanzahl von Cache-Tokens für implizites und explizites Caching |
|
Maximale Größe von Inhalten, die Sie mit einem Blob oder Text im Cache speichern können |
10 MB |
Mindestzeit, bevor ein Cache nach dessen Erstellung abläuft |
1 Minute |
Maximale Zeit, bevor ein Cache nach dessen Erstellung abläuft |
Es gibt keine maximale Cache-Dauer |
Unterstützung durch VPC Service Controls
Kontext-Caching unterstützt VPC Service Controls. Das bedeutet, dass Ihr Cache nicht über Ihren Dienstperimeter hinaus exportiert werden kann. Wenn Sie Cloud Storage verwenden, um Ihren Cache zu erstellen, fügen Sie Ihren Bucket ebenfalls in Ihren Dienstperimeter ein, um die Cache-Inhalte zu schützen.
Weitere Informationen finden Sie in der Dokumentation zur Gemini Enterprise Agent Platform unter VPC Service Controls mit der Gemini Enterprise Agent Platform.
Nächste Schritte
- Weitere Informationen zu der Gemini API.
- Multimodale Prompts verwenden