Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan context caching

Context caching membantu mengurangi biaya dan latensi permintaan ke Gemini yang berisi konten berulang. Gemini Enterprise Agent Platform menawarkan dua jenis caching:

Caching implisit: Caching otomatis diaktifkan secara default yang memberikan penghematan biaya saat cache hit terjadi.
Caching eksplisit: Caching manual diaktifkan menggunakan Gemini Enterprise API, tempat Anda secara eksplisit mendeklarasikan konten yang ingin di-cache dan apakah perintah Anda harus merujuk ke konten yang di-cache atau tidak.

Untuk caching implisit dan eksplisit, cachedContentTokenCount kolom dalam metadata respons Anda menunjukkan jumlah token di bagian input yang di-cache.

Biaya penyimpanan caching

Untuk caching implisit dan eksplisit, Anda akan ditagih untuk token input yang digunakan untuk membuat cache dengan harga token input standar. Untuk caching eksplisit, ada juga biaya penyimpanan berdasarkan durasi penyimpanan cache. Tidak ada biaya penyimpanan untuk caching implisit. Untuk mengetahui informasi selengkapnya, lihat Harga Agent Platform.

Caching implisit

Semua Google Cloud project mengaktifkan caching implisit secara default. Caching implisit memberikan diskon 90% untuk token yang di-cache dibandingkan dengan token input standar.

Jika diaktifkan, penghematan biaya cache hit implisit akan otomatis diteruskan kepada Anda. Untuk meningkatkan peluang cache hit implisit:

Tempatkan konten besar dan umum di awal perintah Anda.
Kirim permintaan dengan awalan yang serupa dalam waktu singkat.

Model yang didukung

Caching implisit didukung saat menggunakan model berikut:

Klik untuk meluaskan model yang didukung

Caching implisit juga mendukung model terbuka. Untuk mengetahui informasi selengkapnya, lihat Model terbuka Agent Platform untuk MaaS.

Caching eksplisit

Caching eksplisit menawarkan lebih banyak kontrol dan memastikan diskon untuk token input yang mereferensikan context cache yang ada. Pada model Gemini 2.5 atau yang lebih baru, diskon ini adalah 90%; pada model Gemini 2.0, diskon ini adalah 75%.

Dengan Gemini Enterprise API, Anda dapat:

Membuat context cache dan mengontrolnya secara lebih efektif.
Menggunakan context cache dengan mereferensikan kontennya dalam permintaan perintah dengan nama resource-nya.
Memperbarui waktu habis masa berlaku context cache (Time to Live, atau TTL) setelah 60 menit default.
Menghapus context cache jika tidak lagi diperlukan.

Anda juga dapat menggunakan Gemini Enterprise API untuk mengambil informasi tentang context cache.

Cache eksplisit berinteraksi dengan caching implisit, yang berpotensi menyebabkan caching tambahan di luar konten yang ditentukan saat membuat cache. Untuk mencegah retensi data cache, nonaktifkan caching implisit dan hindari pembuatan cache eksplisit. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan dan menonaktifkan caching.

Model yang didukung

Caching eksplisit didukung saat menggunakan model berikut:

Klik untuk meluaskan model yang didukung

Caching eksplisit juga mendukung alias terbaru, termasuk:

gemini-flash-latest
gemini-flash-lite-latest

Kapan harus menggunakan context caching

Context caching sangat cocok untuk skenario ketika konteks awal yang substansial direferensikan berulang kali oleh permintaan berikutnya.

Item konteks yang di-cache, seperti teks dalam jumlah besar, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang menyusun percakapan chat mungkin menyertakan context cache yang sama yang mereferensikan video bersama dengan teks unik yang terdiri dari setiap giliran dalam chat.

Pertimbangkan untuk menggunakan context caching untuk kasus penggunaan seperti:

Chatbot dengan petunjuk sistem yang luas
Analisis berulang dari file video yang panjang
Kueri berulang terhadap kumpulan dokumen besar
Analisis repositori kode atau perbaikan bug yang sering dilakukan

Caching implisit dan eksplisit didukung dengan Throughput yang Disediakan dalam Pratinjau. Lihat panduan Throughput yang Disediakan untuk mengetahui detail selengkapnya. Cache berfungsi di semua jenis traffic. Misalnya, cache yang dibuat saat menggunakan Throughput yang Disediakan juga berfungsi dengan PayGo.

Ketersediaan

Context caching tersedia di region tempat AI Generatif di Gemini Enterprise Agent Platform tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Gemini Enterprise Agent Platform.

Batas

Konten yang Anda cache secara eksplisit harus mematuhi batas yang ditampilkan dalam tabel berikut:

Batas context caching
Jumlah token cache minimum untuk caching implisit dan eksplisit	Model keluarga Gemini 3: 4.096 token Pratinjau Gemini 3.0 Flash dan Pratinjau Gemini 3.1 Pro (hanya caching implisit): 6.144 token Model keluarga Gemini 2: 2.048 token
Ukuran maksimum konten yang dapat Anda cache menggunakan blob atau teks	10 MB
Waktu minimum sebelum cache berakhir masa berlakunya setelah dibuat	1 menit
Waktu maksimum sebelum cache berakhir masa berlakunya setelah dibuat	Tidak ada durasi cache maksimum

Dukungan Kontrol Layanan VPC

Context caching mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat dieksfiltrasi di luar perimeter layanan Anda. Jika Anda menggunakan Cloud Storage untuk membuat cache, sertakan bucket Anda di perimeter layanan juga untuk melindungi konten cache Anda.

Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Gemini Enterprise Agent Platform dalam dokumentasi Gemini Enterprise Agent Platform.

Langkah berikutnya

Pelajari Gemini API.
Pelajari cara menggunakan perintah multimodal.

Ringkasan context caching Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Biaya penyimpanan caching

Caching implisit

Model yang didukung

Klik untuk meluaskan model yang didukung

Caching eksplisit

Model yang didukung

Klik untuk meluaskan model yang didukung

Kapan harus menggunakan context caching

Ketersediaan

Batas

Dukungan Kontrol Layanan VPC

Langkah berikutnya

Ringkasan context caching