Ringkasan penyimpanan cache konteks

Context caching membantu mengurangi biaya dan latensi permintaan ke Gemini yang berisi konten berulang. Vertex AI menawarkan dua jenis caching:

  • Caching implisit: Caching otomatis diaktifkan secara default yang memberikan penghematan biaya saat cache hit terjadi.
  • Caching eksplisit: Caching manual diaktifkan menggunakan Vertex AI API, tempat Anda secara eksplisit mendeklarasikan konten yang ingin di-cache dan apakah perintah Anda harus merujuk ke konten yang di-cache atau tidak.

Untuk caching implisit dan eksplisit, cachedContentTokenCount kolom dalam metadata respons Anda menunjukkan jumlah token di bagian input yang di-cache.

Biaya penyimpanan caching

Untuk caching implisit dan eksplisit, Anda akan ditagih untuk token input yang digunakan untuk membuat cache dengan harga token input standar. Untuk caching eksplisit, ada juga biaya penyimpanan berdasarkan durasi penyimpanan cache. Tidak ada biaya penyimpanan untuk caching implisit. Untuk mengetahui informasi selengkapnya, lihat Harga Vertex AI.

Caching implisit

Semua Google Cloud project mengaktifkan caching implisit secara default. Caching implisit memberikan diskon 90% untuk token yang di-cache dibandingkan dengan token input standar.

Jika diaktifkan, penghematan biaya cache hit implisit akan otomatis diberikan kepada Anda. Untuk meningkatkan peluang cache hit implisit:

  • Tempatkan konten besar dan umum di awal perintah Anda.
  • Kirim permintaan dengan awalan yang serupa dalam waktu singkat.

Model yang didukung

Caching implisit didukung saat menggunakan model berikut:

Caching implisit juga mendukung alias terbaru, termasuk:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Caching implisit juga mendukung Model Terbuka. Untuk mengetahui informasi selengkapnya, lihat Model terbuka Vertex AI untuk MaaS.

Caching eksplisit

Caching eksplisit menawarkan lebih banyak kontrol dan memastikan diskon saat cache eksplisit dirujuk. Artinya, diskon untuk token input yang merujuk ke context cache yang ada. Pada model Gemini 2.5 atau yang lebih baru, diskon ini adalah 90%, pada model Gemini 2.0, diskon ini adalah 75%.

Dengan Vertex AI API, Anda dapat:

Anda juga dapat menggunakan Vertex AI API untuk mengambil informasi tentang context cache.

Cache eksplisit berinteraksi dengan caching implisit, yang berpotensi menyebabkan caching tambahan di luar konten yang ditentukan saat membuat cache. Untuk mencegah retensi data cache, nonaktifkan caching implisit dan hindari pembuatan cache eksplisit. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan dan menonaktifkan caching.

Model yang didukung

Caching eksplisit didukung saat menggunakan model berikut:

Caching eksplisit juga mendukung alias terbaru, termasuk:

  • gemini-flash-latest
  • gemini-flash-lite-latest

Kapan harus menggunakan context caching

Context caching sangat cocok untuk skenario ketika konteks awal yang substansial dirujuk berulang kali oleh permintaan berikutnya.

Item konteks yang di-cache, seperti teks dalam jumlah besar, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang menyusun percakapan chat mungkin menyertakan context cache yang sama yang merujuk ke video bersama dengan teks unik yang terdiri dari setiap giliran dalam chat.

Pertimbangkan untuk menggunakan context caching untuk kasus penggunaan seperti:

  • Chatbot dengan petunjuk sistem yang luas
  • Analisis berulang file video yang panjang
  • Kueri berulang terhadap kumpulan dokumen besar
  • Analisis repositori kode atau perbaikan bug yang sering dilakukan

Caching implisit dan eksplisit didukung dengan Throughput yang Disediakan dalam Pratinjau. Lihat panduan Throughput yang Disediakan untuk mengetahui detail selengkapnya. Cache berfungsi di semua jenis traffic. Misalnya, cache yang dibuat saat menggunakan Throughput yang Disediakan juga berfungsi dengan PayGo.

Ketersediaan

Context caching tersedia di wilayah tempat AI Generatif di Vertex AI tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Vertex AI.

Batas

Konten yang Anda cache secara eksplisit harus mematuhi batas yang ditampilkan dalam tabel berikut:

Batas context caching

Jumlah token cache minimum untuk caching implisit dan eksplisit

  • Model Gemini 3 dan Gemini 3.1: 4.096 token
  • Model Gemini 2.0 dan 2.5: 2.048 token

Ukuran maksimum konten yang dapat Anda cache menggunakan blob atau teks

10 MB

Waktu minimum sebelum cache berakhir masa berlakunya setelah dibuat

1 menit

Waktu maksimum sebelum cache berakhir masa berlakunya setelah dibuat

Tidak ada durasi cache maksimum

Dukungan Kontrol Layanan VPC

Context caching mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat dieksfiltrasi di luar perimeter layanan Anda. Jika Anda menggunakan Cloud Storage untuk membuat cache, sertakan bucket Anda di perimeter layanan juga untuk melindungi konten cache Anda.

Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Vertex AI dalam dokumentasi Vertex AI.

Langkah berikutnya