Penyimpanan cache konteks membantu mengurangi biaya dan latensi permintaan ke Gemini yang berisi konten berulang. Platform Agen Gemini Enterprise menawarkan dua jenis caching:
- Caching implisit: Caching otomatis diaktifkan secara default yang memberikan penghematan biaya saat cache hit terjadi.
- Caching eksplisit: Caching manual diaktifkan menggunakan Gemini Enterprise API, dengan Anda secara eksplisit menyatakan konten yang ingin di-cache dan apakah perintah Anda harus merujuk ke konten yang di-cache atau tidak.
Untuk penyimpanan dalam cache implisit dan eksplisit, kolom cachedContentTokenCount
dalam metadata respons Anda menunjukkan jumlah token dalam bagian input yang di-cache.
Biaya penyimpanan cache
Untuk caching implisit dan eksplisit, Anda ditagih untuk token input yang digunakan untuk membuat cache dengan harga token input standar. Untuk caching eksplisit, ada juga biaya penyimpanan berdasarkan durasi penyimpanan cache. Tidak ada biaya penyimpanan untuk penyimpanan dalam cache implisit. Untuk mengetahui informasi selengkapnya, lihat harga Platform Agen.
Caching implisit
Semua Google Cloud project mengaktifkan caching implisit secara default. Caching implisit memberikan diskon 90% untuk token yang di-cache dibandingkan dengan token input standar.
Jika diaktifkan, penghematan biaya hit cache implisit akan otomatis diteruskan kepada Anda. Untuk meningkatkan peluang cache implisit ditemukan:
- Tempatkan konten yang besar dan umum di awal perintah Anda.
- Mengirim permintaan dengan awalan yang serupa dalam waktu singkat.
Model yang didukung
Caching implisit didukung saat menggunakan model berikut:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
Caching implisit juga mendukung alias terbaru, termasuk:
gemini-flash-latestgemini-flash-lite-latest
Caching implisit juga mendukung Model Terbuka. Untuk mengetahui informasi selengkapnya, lihat Membuka model Platform Agen untuk MaaS.
Caching eksplisit
Penyimpanan cache eksplisit menawarkan kontrol yang lebih besar dan memastikan diskon pada token input yang mereferensikan cache konteks yang ada. Untuk model Gemini 2.5 atau yang lebih baru, diskon ini adalah 90%; untuk model Gemini 2.0, diskon ini adalah 75%.
Dengan menggunakan Gemini Enterprise API, Anda dapat:
- Buat context cache dan kendalikan secara lebih efektif.
- Gunakan cache konteks dengan mereferensikan kontennya dalam permintaan perintah dengan nama resource-nya.
- Perbarui waktu habis masa berlaku context cache (Time to Live, atau TTL) setelah 60 menit default.
- Hapus context cache jika tidak diperlukan lagi.
Anda juga dapat menggunakan Gemini Enterprise API untuk mengambil informasi tentang cache konteks.
Cache eksplisit berinteraksi dengan caching implisit, yang berpotensi menyebabkan caching tambahan di luar konten yang ditentukan saat membuat cache. Untuk mencegah retensi data cache, nonaktifkan penyimpanan cache implisit dan hindari pembuatan cache eksplisit. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan dan menonaktifkan penyimpanan ke dalam cache.
Model yang didukung
Caching eksplisit didukung saat menggunakan model berikut:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
Caching eksplisit juga mendukung alias terbaru, termasuk:
gemini-flash-latestgemini-flash-lite-latest
Kapan harus menggunakan context caching
Context caching sangat cocok untuk skenario saat konteks awal yang besar dirujuk berulang kali oleh permintaan berikutnya.
Item konteks yang di-cache, seperti sejumlah besar teks, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang membentuk percakapan chat dapat menyertakan cache konteks yang sama yang mereferensikan video bersama dengan teks unik yang membentuk setiap giliran dalam percakapan chat.
Pertimbangkan untuk menggunakan context caching untuk kasus penggunaan seperti:
- Chatbot dengan petunjuk sistem yang ekstensif
- Analisis berulang pada file video panjang
- Kueri berulang terhadap set dokumen besar
- Analisis repositori kode atau perbaikan bug yang sering
Penyimpanan dalam cache implisit dan eksplisit didukung dengan Throughput yang Disediakan dalam Pratinjau. Lihat Panduan throughput yang disediakan untuk mengetahui detail selengkapnya. Cache berfungsi di seluruh jenis traffic. Misalnya, cache yang dibuat saat menggunakan Throughput yang Disediakan juga berfungsi dengan PayGo.
Ketersediaan
Penyimpanan cache konteks tersedia di wilayah tempat AI Generatif di Platform Agen Gemini Enterprise tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Platform Agen Gemini Enterprise.
Batas
Konten yang Anda cache secara eksplisit harus mematuhi batas yang ditampilkan dalam tabel berikut:
| Batas context caching | |
|---|---|
Jumlah token cache minimum untuk penyimpanan cache implisit dan eksplisit |
|
Ukuran maksimum konten yang dapat Anda simpan dalam cache menggunakan blob atau teks |
10 MB |
Waktu minimum sebelum cache berakhir setelah dibuat |
1 menit |
Waktu maksimum sebelum cache berakhir setelah dibuat |
Tidak ada durasi cache maksimum |
Dukungan Kontrol Layanan VPC
Penyimpanan dalam cache konteks mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat diekstraksi di luar perimeter layanan Anda. Jika Anda menggunakan Cloud Storage untuk membangun cache, sertakan bucket Anda dalam perimeter layanan Anda juga untuk melindungi konten cache Anda.
Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Platform Agen Gemini Enterprise dalam dokumentasi Platform Agen Gemini Enterprise.
Langkah berikutnya
- Pelajari Gemini API.
- Pelajari cara menggunakan perintah multimodal.