Halaman ini berlaku untuk Apigee dan Apigee hybrid.
Lihat dokumentasi
Apigee Edge.
Gunakan diagram perbandingan di bawah untuk membantu Anda memutuskan kebijakan yang akan digunakan untuk kasus penggunaan pembatasan laju:
| Kuota | SpikeArrest | LLMTokenQuota | PromptTokenLimit | |
|---|---|---|---|---|
| Gunakan ekstensi ini untuk: | Membatasi jumlah panggilan proxy API yang dapat dilakukan aplikasi developer atau developer selama jangka waktu tertentu. Metode ini paling cocok untuk membatasi laju permintaan selama interval waktu yang lebih lama seperti hari, minggu, atau bulan, terutama jika penghitungan yang akurat diperlukan. | Membatasi jumlah panggilan API yang dapat dilakukan terhadap proxy API di semua konsumen dalam jangka waktu singkat, seperti detik atau menit. | Mengelola dan membatasi total penggunaan token untuk panggilan LLM API selama jangka waktu tertentu (menit, jam, hari, minggu, atau bulan). Hal ini memungkinkan Anda mengontrol pengeluaran LLM dan menerapkan pengelolaan kuota terperinci berdasarkan produk API. | Lindungi backend target proxy API Anda dari penyalahgunaan token, perintah besar, dan potensi upaya penolakan layanan dengan membatasi kecepatan token yang dikirim dalam input dengan membatasi permintaan berdasarkan jumlah token dalam pesan perintah pengguna. Ini adalah paradigma komparatif untuk Spike Arrest untuk traffic API, tetapi untuk token. |
| Jangan gunakan untuk: | Lindungi backend target proxy API Anda dari lonjakan traffic. Gunakan SpikeArrest atau PromptTokenLimit untuk itu. | Menghitung dan membatasi jumlah koneksi yang dapat dilakukan aplikasi ke backend target proxy API Anda selama jangka waktu tertentu, terutama saat penghitungan yang akurat diperlukan. | Lindungi backend target proxy API Anda dari penyalahgunaan token. Gunakan PromptTokenLimit untuk itu. | Menghitung dan membatasi secara akurat jumlah total token yang digunakan untuk penagihan atau pengelolaan kuota jangka panjang. Gunakan kebijakan LLMTokenQuota untuk itu. |
| Menyimpan jumlah? | Ya | Tidak | Ya, API ini mempertahankan penghitung yang melacak jumlah token yang digunakan oleh respons LLM. | Kebijakan ini menghitung token untuk menerapkan batas kecepatan, tetapi tidak menyimpan hitungan jangka panjang yang persisten seperti kebijakan LLMTokenQuota. |
| Praktik terbaik untuk melampirkan kebijakan: |
Lampirkan ke ProxyEndpoint Request PreFlow, biasanya setelah autentikasi pengguna. Hal ini memungkinkan kebijakan untuk memeriksa penghitung kuota di titik entri proxy API Anda. |
Lampirkan ke ProxyEndpoint Request PreFlow, biasanya di awal alur. Kebijakan ini memberikan perlindungan lonjakan di titik entri proxy API Anda. Jika Anda menggunakan kebijakan SpikeArrest dan Quota dalam proxy yang sama, SpikeArrest harus selalu dilampirkan sebelum kebijakan Quota di ProxyEndpoint Request PreFlow. SpikeArrest berfungsi sebagai garis pertahanan pertama terhadap lonjakan traffic yang tiba-tiba, meratakan traffic sebelum permintaan dievaluasi terhadap batas Kuota jangka panjang. Tindakan ini mencegah lonjakan menghabiskan kuota sebelum waktunya. |
Terapkan kebijakan penegakan ( |
Lampirkan ke ProxyEndpoint Request PreFlow, di awal alur, untuk melindungi backend Anda dari perintah yang terlalu besar. Jika Anda menggunakan kebijakan PromptTokenLimit dan LLMTokenQuota dalam proxy yang sama, PromptTokenLimit harus selalu dilampirkan sebelum kebijakan LLMTokenQuota di ProxyEndpoint Request PreFlow. PromptTokenLimit berfungsi sebagai lini pertahanan pertama terhadap perintah yang terlalu besar, menolaknya sebelum permintaan dievaluasi terhadap batas LLMTokenQuota jangka panjang. Hal ini mencegah perintah yang terlalu besar menghabiskan kuota token sebelum waktunya. |
| Kode status HTTP saat batas telah tercapai: | 429 (Terlalu Banyak Permintaan) |
429 (Terlalu Banyak Permintaan) |
429 (Terlalu Banyak Permintaan) |
429 (Terlalu Banyak Permintaan) |
| Perlu diketahui: |
|
|
|
|
| Dapatkan detail selengkapnya: | Kebijakan kuota | Kebijakan SpikeArrest | Kebijakan LLMTokenQuota | Kebijakan PromptTokenLimit |