Model Anthropic Claude menawarkan penyimpanan cache perintah untuk mengurangi latensi dan biaya saat menggunakan kembali konten yang sama dalam beberapa permintaan. Saat mengirim kueri, Anda dapat menyimpan dalam cache semua atau bagian tertentu dari input sehingga kueri berikutnya dapat menggunakan hasil yang di-cache dari permintaan sebelumnya. Hal ini menghindari biaya komputasi dan jaringan tambahan. Cache unik untuk project Google Cloud Anda dan tidak dapat digunakan oleh project lain.
Untuk mengetahui detail tentang cara menyusun perintah, lihat dokumentasi Penyimpanan dalam cache perintah Anthropic.
Pemrosesan data
Penyimpanan cache perintah eksplisit Anthropic adalah fitur model Anthropic Claude. Penawaran Vertex AI untuk model Anthropic ini berperilaku seperti yang dijelaskan dalam dokumentasi Anthropic.
Penyimpanan cache perintah adalah fitur opsional. Claude menghitung hash (sidik jari) permintaan untuk kunci penayangan cache. Hash ini hanya dihitung untuk permintaan yang mengaktifkan penayangan cache.
Meskipun penyimpanan dalam cache perintah adalah fitur yang diterapkan oleh model Claude, dari perspektif penanganan data, Google menganggap hash ini sebagai jenis "Metadata Pengguna". Data tersebut diperlakukan sebagai "Data Layanan" pelanggan berdasarkan Google Cloud Pemberitahuan Privasi dan bukan sebagai "Data Pelanggan" berdasarkan Adendum Pemrosesan Data Cloud (Pelanggan). Khususnya, perlindungan tambahan untuk "Data Pelanggan" tidak berlaku untuk hash ini. Google tidak menggunakan hash ini untuk tujuan lain.
Jika Anda ingin menonaktifkan sepenuhnya fitur caching perintah ini dan membuatnya tidak tersedia di project tertentu, Anda dapat memintanya dengan menghubungi dukungan pelanggan dan memberikan nomor project yang relevan. Google Cloud Setelah penayangan cache eksplisit dinonaktifkan untuk project, permintaan dari project dengan penayangan cache cepat diaktifkan akan ditolak.
Menggunakan cache perintah
Anda dapat menggunakan Anthropic Claude SDK atau Vertex AI REST API untuk mengirim permintaan ke endpoint Vertex AI.
Untuk mengetahui informasi selengkapnya, lihat Cara kerja caching perintah.
Untuk contoh tambahan, lihat Contoh penyimpanan dalam cache perintah di dokumentasi Anthropic.
Caching terjadi secara otomatis saat permintaan berikutnya berisi teks, gambar, dan parameter cache_control yang identik dengan permintaan pertama. Semua permintaan
juga harus menyertakan parameter cache_control dalam blok yang sama.
Secara default, cache memiliki masa aktif atau time to live (TTL) selama lima menit. Anda dapat memperpanjang TTL hingga satu jam dengan menyetel "ttl": "1h" dalam objek cache_control. Masa aktif cache diperbarui setiap kali konten yang di-cache diakses. Untuk mengetahui informasi selengkapnya, lihat
Durasi cache 1 jam.
TTL satu jam tidak didukung untuk model berikut: Claude 3.7 Sonnet, Claude 3.5 Sonnet v2, Claude 3.5 Sonnet, dan Claude 3 Opus.
Harga
Caching perintah dapat memengaruhi biaya penagihan. Perhatikan bahwa:
- Token tulis cache dengan masa aktif lima menit 25% lebih mahal daripada token input dasar.
- Token penulisan cache dengan masa aktif satu jam 100% lebih mahal daripada token input dasar.
- Token baca cache 90% lebih murah daripada token input dasar.
- Token input dan output reguler dihargai dengan tarif standar.
Untuk mengetahui informasi selengkapnya, lihat halaman Harga.