Halaman ini berlaku untuk Apigee, tetapi tidak untuk Apigee Hybrid.
Lihat dokumentasi
Apigee Edge.
Ringkasan
Kebijakan LLMTokenQuota dirancang untuk mengelola dan mengontrol konsumsi token untuk beban kerja AI/LLM. Karena interaksi Model Bahasa Besar (LLM) berbasis token, pengelolaan yang efektif sangat penting untuk pengendalian biaya, pengoptimalan performa, dan stabilitas platform.
Kuota adalah alokasi token LLM (Input atau Output) yang dapat digunakan oleh proxy API selama jangka waktu tertentu, seperti menit, jam, hari, minggu, atau bulan. Kebijakan LLMTokenQuota mempertahankan penghitung yang mencatat jumlah token yang digunakan oleh proxy API. Kemampuan ini memungkinkan penyedia API menerapkan batas pada konsumsi token oleh aplikasi selama interval waktu tertentu.
Kebijakan ini menggunakan elemen <LLMTokenUsageSource> dan <LLMModelSource> untuk mengekstrak jumlah token dari respons LLM, dan nama model dari permintaan atau respons, sehingga memungkinkan penegakan kuota yang akurat dan real-time.
Kebijakan ini adalah Kebijakan yang dapat diperluas dan penggunaan kebijakan ini mungkin memiliki implikasi biaya atau penggunaan, bergantung pada lisensi Apigee Anda. Untuk mengetahui informasi tentang jenis kebijakan dan implikasi penggunaannya, lihat Jenis kebijakan.
Cara kerja penegakan kebijakan LLMTokenQuota
Berikut adalah deskripsi fungsi kebijakan LLMTokenQuota:
-
Penghitungan Token (
<CountOnly>): Kebijakan LLMTokenQuota mempertahankan penghitung yang melacak jumlah token yang digunakan oleh respons LLM yang melewati proxy API. -
Menerapkan Batas (
<EnforceOnly>): Kemampuan ini memungkinkan penyedia API menetapkan batas ketat pada jumlah token yang digunakan oleh aplikasi selama interval yang ditentukan. Misalnya, Anda dapat membatasi aplikasi hingga 1.000 token per menit atau 10.000.000 token per bulan. - Pelampauan Kuota: Saat proxy API mencapai batas kuota token yang ditentukan, Apigee akan menolak permintaan berikutnya yang menggunakan token. Pesan error akan ditampilkan hingga penghitung LLMTokenQuota otomatis direset di akhir interval waktu yang ditentukan. Misalnya, jika kuota ditetapkan untuk 10.000 token per bulan, pembatasan token dimulai setelah token ke-10.000 dihitung, terlepas dari kapan dalam bulan tersebut batas tersebut tercapai.
Cara kerja LLMTokenQuota dengan produk API
Berikut adalah penjelasan cara kerja kebijakan LLMTokenQuota dengan produk API:
-
Terapkan kebijakan
VerifyAPIKeyatauVerifyAccessTokenbersama dengan kebijakan penerapanLLMTokenQuotadalam permintaan Proxy API (Proxy atau Target tidak masalah). -
Terapkan kebijakan penghitungan
LLMTokenQuotasebagai respons terhadap Proxy API (Proxy atau Target tidak masalah). - Kebijakan VerifyAPIKey atau VerifyAccessToken mencocokkan kunci atau token dengan produk API, set operasi, developer, dan aplikasi. Kebijakan ini mengekspos variabel alur untuk kuota LLM bagi semua model dari set operasi LLM yang cocok.
- Dalam kebijakan penerapan kuota, kita mengekstrak model sesuai dengan template pesan yang diberikan.
- Kemudian, variabel kuota LLM dicocokkan untuk model. Jika kecocokan ditemukan, referensi akan disisipkan.
- Setelah referensi disuntikkan, nilai tersebut digunakan untuk melakukan operasi kuota.
Cara kerja LLMTokenQuota dengan respons SSE
Agar LLMTokenQuota berfungsi dengan respons SSE, tambahkan kebijakan sebagai bagian dari alur peristiwa seperti yang ditunjukkan di bawah:
<EventFlow content-type="text/event-stream"> <Response> <Step> <Name>LLM_TOKEN_QUOTA_COUNT_POLICY_NAME</Name> </Step> </Response> </EventFlow>
Saat memproses aliran peristiwa, penghitungan token hanya dilakukan jika metadata penggunaan token dari respons LLM ditemukan dalam peristiwa. Saat metadata penggunaan token ditemukan, metadata tersebut akan diekstrak dan kebijakan dijalankan. Untuk semua peristiwa lainnya, kebijakan menghasilkan NO-OP.
Jenis kebijakan LLMTokenQuota
Kebijakan LLMTokenQuota mendukung beberapa cara berbeda untuk memulai dan mereset penghitung kuota. Anda dapat menentukan mana yang akan digunakan dengan atribut
type pada elemen <LLMTokenQuota>, seperti yang ditunjukkan
dalam contoh berikut:
<LLMTokenQuota name="LLMTokenQuotaPolicy" type="calendar"> ... </LLMTokenQuota>
Nilai type yang valid meliputi:
calendar: Mengonfigurasi kuota berdasarkan waktu mulai eksplisit. Penghitung LLMTokenQuota untuk setiap aplikasi diperbarui berdasarkan nilai<StartTime>,<Interval>, dan<TimeUnit>yang Anda tetapkan.rollingwindow: Mengonfigurasi kuota yang menggunakan periode berjalan untuk menentukan penggunaan kuota. Denganrollingwindow, Anda menentukan ukuran periode waktu dengan elemen<Interval>dan<TimeUnit>; misalnya, 1 hari. Saat permintaan masuk, Apigee akan melihat waktu persis permintaan (misalnya 17.01), menghitung jumlah token yang digunakan antara waktu tersebut dan 17.01 pada hari sebelumnya (1 hari), dan menentukan apakah kuota telah terlampaui atau tidak selama periode tersebut.flexi: Mengonfigurasi kuota yang menyebabkan penghitung dimulai saat pesan permintaan pertama diterima dari aplikasi, dan direset berdasarkan nilai<Interval>dan<TimeUnit>.
Tabel berikut menjelaskan kapan kuota direset untuk setiap jenis:
| Unit Waktu | Jenis | ||
|---|---|---|---|
default (atau null) |
calendar |
flexi |
|
| menit | Awal menit berikutnya | Satu menit setelah <StartTime> |
Satu menit setelah permintaan pertama |
| jam | Awal jam berikutnya | Satu jam setelah <StartTime> |
Satu jam setelah permintaan pertama |
| hari | Tengah malam GMT pada hari ini | 24 jam setelah <StartTime> |
24 jam setelah permintaan pertama |
| minggu | Tengah malam GMT pada hari Minggu di akhir minggu | Satu minggu setelah <StartTime> |
Satu minggu setelah permintaan pertama |
| bulan | Tengah malam GMT pada hari terakhir setiap bulan | Satu bulan (28 hari) setelah <StartTime> |
Satu bulan (28 hari) setelah permintaan pertama |
Untuk type="calendar", Anda harus menentukan nilai
<StartTime>.
Tabel tidak menjelaskan kapan jumlah direset untuk jenis rollingwindow.
Hal ini karena kuota periode berjalan berfungsi sedikit berbeda, berdasarkan periode lihat kembali,
seperti satu jam atau satu hari. Untuk jenis rollingwindow, penghitung tidak pernah direset, tetapi
dihitung ulang pada setiap permintaan. Saat permintaan baru masuk, kebijakan akan menentukan apakah kuota
telah terlampaui dalam jangka waktu sebelumnya.
Misalnya, Anda menentukan periode dua jam yang memungkinkan 1.000 token. Permintaan baru masuk pada pukul 16.45. Kebijakan menghitung jumlah kuota untuk jangka waktu dua jam terakhir, yang berarti jumlah token yang digunakan sejak pukul 14.45. Jika batas kuota belum terlampaui dalam jangka waktu dua jam tersebut, permintaan akan diizinkan.
Satu menit kemudian, pada pukul 16.46, permintaan lain masuk. Sekarang, kebijakan menghitung jumlah kuota sejak pukul 14.46 untuk menentukan apakah batas telah terlampaui.
Memahami penghitung kuota
Saat kebijakan LLMTokenQuota dijalankan dalam alur proxy API, penghitung kuota akan bertambah. Jika penghitung mencapai batasnya, tidak ada panggilan API lebih lanjut yang terkait dengan penghitung tersebut yang diizinkan. Bergantung pada konfigurasi yang Anda gunakan untuk Produk API, kebijakan LLMTokenQuota dapat menggunakan satu penghitung, atau beberapa penghitung independen. Penting untuk memahami skenario saat beberapa penghitung akan digunakan, dan cara kerjanya.
Mengonfigurasi setelan kuota untuk produk API
Produk API dapat menentukan setelan kuota di
tingkat produk
atau di tingkat operasi individual,
atau keduanya. Jika proxy API Anda disertakan dalam produk API, Anda dapat mengonfigurasi kebijakan LLMTokenQuota untuk menggunakan setelan kuota (jumlah yang diizinkan, unit waktu, dan interval) yang ditentukan dalam produk tersebut. Cara termudah untuk melakukannya
adalah melalui elemen useQuotaConfigInAPIProduct.
Atau, Anda dapat mereferensikan setelan ini dalam kebijakan LLMTokenQuota melalui referensi variabel individual.
Cara Penghitungan Kuota
Secara default, Apigee mempertahankan penghitung kuota terpisah untuk setiap operasi yang ditentukan dalam produk API, dan aturan berikut diamati:
- Jika suatu operasi memiliki kuota yang ditentukan untuknya, setelan kuota operasi tersebut akan lebih diutamakan daripada setelan kuota yang ditentukan di tingkat produk.
- Jika suatu operasi tidak memiliki kuota yang ditentukan, setelan kuota tingkat produk akan berlaku.
- Jika produk API tidak menyertakan setelan kuota apa pun — baik di tingkat produk maupun operasi — setelan kuota untuk jumlah yang diizinkan, unit waktu, dan interval seperti yang ditentukan dalam kebijakan LLMTokenQuota berlaku.
Dalam semua kasus, Apigee mempertahankan penghitung kuota terpisah untuk setiap operasi yang ditentukan dalam produk API. Setiap panggilan API yang cocok dengan operasi akan menaikkan penghitungnya.
Mengonfigurasi penghitung tingkat proxy API
Anda dapat mengonfigurasi produk API untuk mempertahankan jumlah kuota pada cakupan proxy API. Dalam hal ini, konfigurasi kuota yang ditentukan di tingkat produk API digunakan bersama oleh semua operasi yang tidak memiliki kuota sendiri. Efek konfigurasi ini adalah membuat penghitung di tingkat proxy API untuk produk API ini.
Untuk mencapai konfigurasi ini, Anda harus menggunakan
Apigee API/apiproducts
untuk membuat atau memperbarui produk dan menetapkan
atribut quotaCounterScope ke PROXY dalam permintaan pembuatan atau pembaruan.
Dengan konfigurasi PROXY, permintaan yang cocok dengan salah satu operasi yang ditentukan untuk produk API
yang dikaitkan dengan proxy yang sama, dan tidak memiliki setelan kuota sendiri, akan berbagi
penghitung kuota umum untuk proxy tersebut.
Pada Gambar 1, Operasi 1 dan 2
dikaitkan dengan Proxy1, sedangkan Operasi 4 dan 5 dikaitkan dengan Proxy3. Karena
quotaCounterScope=PROXY ditetapkan di produk API, setiap operasi ini
menggunakan setelan kuota tingkat produk API. Operasi 1 dan 2, yang terkait dengan Proxy1, menggunakan
penghitung bersama, dan Operasi 4 dan 5, yang terkait dengan Proxy3, menggunakan penghitung bersama yang terpisah.
Operasi 3 memiliki setelan konfigurasi kuotanya sendiri, dan karena itu menggunakan penghitungnya sendiri,
terlepas dari nilai atribut quotaCounterScope.
Gambar 1: Penggunaan flag quotaCounterScope

Cara penghitungan kuota jika tidak ada produk API yang digunakan
Jika tidak ada produk API yang terkait dengan proxy API, kebijakan LLMTokenQuota akan mempertahankan satu
penghitung, terlepas dari berapa kali Anda mereferensikannya dalam proxy API. Nama penghitung kuota
didasarkan pada atribut name kebijakan.
Misalnya, Anda membuat kebijakan LLMTokenQuota bernama MyLLMTokenQuotaPolicy dengan batas 5
token dan menempatkannya di beberapa alur (Alur A, B, dan C) di proxy API. Meskipun digunakan dalam beberapa alur, kebijakan ini mempertahankan satu penghitung yang diperbarui oleh semua instance kebijakan. Dengan asumsi respons LLM menggunakan 1 token setiap kali:
- Alur A dieksekusi -> MyLLMTokenQuotaPolicy dieksekusi dan counternya = 1
- Alur B dieksekusi -> MyLLMTokenQuotaPolicy dieksekusi dan counternya = 2
- Flow A dieksekusi -> MyLLMTokenQuotaPolicy dieksekusi dan counternya = 3
- Flow C dieksekusi -> MyLLMTokenQuotaPolicy dieksekusi dan counternya = 4
- Alur A dieksekusi -> MyLLMTokenQuotaPolicy dieksekusi dan counternya = 5
Permintaan berikutnya ke salah satu dari tiga alur ditolak karena penghitung kuota telah mencapai batasnya.
Menggunakan kebijakan LLMTokenQuota yang sama di lebih dari satu tempat dalam alur proxy API, yang secara tidak sengaja dapat menyebabkan LLMTokenQuota habis lebih cepat dari yang Anda harapkan, adalah anti-pola yang dijelaskan dalam Pengantar anti-pola.
Atau, Anda dapat menentukan beberapa kebijakan LLMTokenQuota di proxy API dan menggunakan kebijakan yang berbeda di setiap alur. Setiap kebijakan LLMTokenQuota mempertahankan counternya sendiri, berdasarkan
atribut name dari kebijakan tersebut.
Membuat beberapa penghitung melalui konfigurasi kebijakan
Anda dapat menggunakan elemen
<Class> atau <Identifier> dalam
kebijakan LLMTokenQuota untuk menentukan beberapa penghitung unik dalam satu kebijakan. Dengan menggunakan elemen ini, satu kebijakan dapat mempertahankan penghitung yang berbeda berdasarkan aplikasi yang membuat permintaan, developer aplikasi yang membuat permintaan, ID klien atau ID klien lainnya, dan banyak lagi. Lihat
contoh di atas untuk mengetahui informasi selengkapnya tentang cara menggunakan
elemen <Class> atau <Identifier>.
Notasi waktu
Semua waktu LLMTokenQuota ditetapkan ke zona waktu Coordinated Universal Time (UTC).
Notasi waktu LLMTokenQuota mengikuti notasi tanggal standar internasional yang ditentukan dalam Standar Internasional ISO 8601.
Tanggal ditentukan sebagai tahun, bulan, dan hari, dalam format berikut: YYYY-MM-DD.
Misalnya, 2025-02-04 merepresentasikan 4 Februari 2025.
Waktu dalam sehari ditentukan sebagai jam, menit, dan detik dalam format berikut:
hours:minutes:seconds. Misalnya, 23:59:59 mewakili waktu satu
detik sebelum tengah malam.
Perhatikan bahwa dua notasi, 00:00:00 dan 24:00:00, tersedia untuk
membedakan dua tengah malam yang dapat dikaitkan dengan satu tanggal. Oleh karena itu, 2025-02-04
24:00:00 adalah tanggal dan waktu yang sama dengan 2025-02-05 00:00:00. Notasi terakhir
biasanya lebih disukai.
Mendapatkan setelan kuota dari konfigurasi produk API
Anda dapat menetapkan batas kuota dalam konfigurasi produk API. Batas tersebut tidak otomatis menerapkan kuota. Sebagai gantinya, Anda dapat mereferensikan setelan kuota produk dalam kebijakan LLMTokenQuota. Berikut beberapa keuntungan menetapkan kuota pada produk agar dirujuk oleh kebijakan LLMTokenQuota:
- Kebijakan LLMTokenQuota dapat menggunakan setelan seragam di semua proxy API dalam produk API.
- Anda dapat membuat perubahan runtime pada setelan kuota di produk API, dan kebijakan LLMTokenQuota yang mereferensikan nilai tersebut akan otomatis memperbarui nilai kuota.
Untuk mengetahui informasi selengkapnya tentang cara menggunakan setelan kuota dari produk API, lihat contoh Kuota Dinamis.
Untuk mengetahui info tentang cara mengonfigurasi produk API dengan batas kuota, lihat Mengelola produk API.
Mengonfigurasi penghitung kuota bersama
Dalam kasus sederhana, kebijakan LLMTokenQuota akan menambah penghitungnya satu kali untuk setiap token yang dikirim ke proxy API, selama pemrosesan permintaan awal. Dalam beberapa kasus, Anda mungkin ingin memeriksa apakah kuota terlampaui saat penanganan awal permintaan masuk, tetapi menambah penghitung hanya selama penanganan respons.
Tiga elemen kebijakan LLMTokenQuota—<SharedName>,
<CountOnly>, dan
<EnforceOnly>—jika digunakan bersama, memungkinkan Anda
menyesuaikan kebijakan LLMTokenQuota untuk menerapkan kuota pada permintaan masuk, tetapi hanya
menaikkan penghitung dalam alur respons.
Misalnya, Anda memiliki proxy API yang menggunakan LLM sebagai target, dan Anda ingin
menerapkan kuota 100.000 token per jam. Respons LLM memberikan nilai
totalTokenCount. Untuk melakukannya, lakukan hal berikut:
- Lampirkan kebijakan LLMTokenQuota ke alur Permintaan ProxyEndpoint dengan
elemen
<SharedName>yang ditetapkan dengan nilai nama dan elemen<EnforceOnly>yang ditetapkan ketrue. - Gunakan elemen
<LLMTokenUsageSource>dalam kebijakan LLMTokenQuota untuk mengambil jumlah token
Untuk contoh yang menunjukkan cara menggunakan penghitung bersama, lihat Penghitung bersama di bagian Contoh.
Sampel
Contoh kode kebijakan ini menunjukkan cara memulai dan mengakhiri periode kuota dengan:
DynamicLLMTokenQuota lainnya
<LLMTokenQuota name="CheckLLMTokenQuota"> <Interval ref="verifyapikey.verify-api-key.apiproduct.developer.llmquota.interval">1</Interval> <TimeUnit ref="verifyapikey.verify-api-key.apiproduct.developer.llmquota.timeunit">hour</TimeUnit> <Allow count="200" countRef="verifyapikey.verify-api-key.apiproduct.developer.llmquota.limit"/> </LLMTokenQuota>
Kuota dinamis memungkinkan Anda mengonfigurasi satu kebijakan LLMTokenQuota yang menerapkan setelan kuota yang berbeda berdasarkan informasi yang diteruskan ke kebijakan LLMTokenQuota. Istilah lain untuk setelan LLMTokenQuota dalam konteks ini adalah paket layanan. LLMTokenQuota dinamis memeriksa paket layanan aplikasi, lalu menerapkan setelan tersebut.
Misalnya, saat membuat produk API, Anda dapat secara opsional menetapkan batas kuota yang diizinkan, unit waktu, dan interval. Namun, menyetel nilai ini pada produk API tidak mewajibkan penggunaannya di proxy API. Anda juga harus menambahkan kebijakan LLMTokenQuota ke proxy API yang membaca nilai ini. Lihat Membuat produk API untuk mengetahui informasi selengkapnya.
Dalam contoh di atas, proxy API yang berisi kebijakan LLMTokenQuota menggunakan
kebijakan VerifyAPIKey, yang bernama verify-api-key, untuk memvalidasi kunci API yang diteruskan
dalam permintaan. Kebijakan
LLMTokenQuota kemudian mengakses variabel alur dari kebijakan VerifyAPIKey untuk membaca nilai kuota
yang ditetapkan pada produk API.
Opsi lainnya adalah menetapkan atribut kustom pada masing-masing developer atau aplikasi, lalu membaca nilai tersebut dalam kebijakan LLMTokenQuota. Misalnya, untuk menetapkan nilai kuota yang berbeda per developer, Anda menetapkan atribut kustom pada developer yang berisi batas, unit waktu, dan interval. Kemudian, Anda mereferensikan nilai ini dalam kebijakan LLMTokenQuota seperti yang ditunjukkan di bawah:
<LLMTokenQuota name="DeveloperLLMTokenQuota"> <Identifier ref="verifyapikey.verify-api-key.client_id"/> <Interval ref="verifyapikey.verify-api-key.developer.timeInterval"/> <TimeUnit ref="verifyapikey.verify-api-key.developer.timeUnit"/> <Allow countRef="verifyapikey.verify-api-key.developer.limit"/> </LLMTokenQuota>
Contoh ini juga menggunakan variabel alur VerifyAPIKey untuk mereferensikan atribut kustom yang ditetapkan pada developer.
Anda dapat menggunakan variabel apa pun untuk menetapkan parameter kebijakan LLMTokenQuota. Variabel tersebut dapat berasal dari:
- Variabel alur
- Properti di produk API, aplikasi, atau developer
- Peta nilai kunci (KVM)
- Header, parameter kueri, parameter formulir, dan lainnya
Untuk setiap proxy API, Anda dapat menambahkan kebijakan LLMTokenQuota yang mereferensikan variabel yang sama dengan semua kebijakan LLMTokenQuota lainnya di semua proxy lainnya, atau kebijakan LLMTokenQuota dapat mereferensikan variabel unik untuk kebijakan dan proxy tersebut.
Waktu mulai
<LLMTokenQuota name="LLMTokenQuotaPolicy" type="calendar"> <StartTime>2025-02-18 10:30:00</StartTime> <Interval>5</Interval> <TimeUnit>hour</TimeUnit> <Allow count="99"/> </LLMTokenQuota>
Untuk LLMTokenQuota dengan type yang ditetapkan ke calendar, Anda harus menentukan nilai
<StartTime> eksplisit. Nilai waktu adalah waktu GMT, bukan waktu
lokal. Jika Anda tidak memberikan nilai <StartTime> untuk kebijakan jenis
calendar, Apigee akan menampilkan error.
Penghitung LLMTokenQuota untuk setiap aplikasi diperbarui berdasarkan nilai <StartTime>,
<Interval>, dan <TimeUnit>. Untuk
contoh ini, LLMTokenQuota mulai dihitung pada pukul 10.30 GMT pada 18 Februari 2025, dan diperbarui setiap
5 jam. Oleh karena itu, penyegaran berikutnya adalah pada 18 Februari 2025 pukul 15.30 GMT.
Penghitung Akses
<LLMTokenQuota name="LLMTokenQuotaPolicy"> <Interval>5</Interval> <TimeUnit>hour</TimeUnit> <Allow count="99"/> </LLMTokenQuota>
Proxy API memiliki akses ke variabel alur yang ditetapkan oleh kebijakan LLMTokenQuota. Anda dapat mengakses variabel alur ini di proxy API untuk melakukan pemrosesan bersyarat, memantau kebijakan saat mendekati batas kuota, menampilkan penghitung kuota saat ini ke aplikasi, atau untuk alasan lainnya.
Karena akses ke variabel alur untuk kebijakan didasarkan pada atribut
name, untuk kebijakan di atas yang bernama <LLMTokenQuota>, Anda
mengakses variabel alurnya dalam bentuk:
ratelimit.LLMTokenQuotaPolicy.allowed.count: Jumlah yang diizinkan.ratelimit.LLMTokenQuotaPolicy.used.count: Nilai penghitung saat ini.ratelimit.LLMTokenQuotaPolicy.expiry.time: Waktu UTC saat penghitung direset.
Ada banyak variabel alur lain yang dapat Anda akses, seperti yang dijelaskan di bawah.
Misalnya, Anda dapat menggunakan kebijakan AssignMessage berikut untuk menampilkan nilai variabel alur LLMTokenQuota sebagai header respons:
<AssignMessage continueOnError="false" enabled="true" name="ReturnQuotaVars"> <AssignTo createNew="false" type="response"/> <Set> <Headers> <Header name="LLMTokenQuotaLimit">{ratelimit.LLMTokenQuotaPolicy.allowed.count}</Header> <Header name="LLMTokenQuotaUsed">{ratelimit.LLMTokenQuotaPolicy.used.count}</Header> <Header name="LLMTokenQuotaResetUTC">{ratelimit.LLMTokenQuotaPolicy.expiry.time}</Header> </Headers> </Set> <IgnoreUnresolvedVariables>false</IgnoreUnresolvedVariables> </AssignMessage>
Penghitung bersama
Contoh berikut mengilustrasikan cara mengonfigurasi penghitung bersama untuk proxy API, dengan penghitung kuota juga di-increment saat respons target adalah status HTTP 200.
Karena kedua kebijakan LLMTokenQuota menggunakan nilai <SharedName> yang sama, kedua kebijakan LLMTokenQuota akan berbagi penghitung kuota yang sama. Untuk mengetahui informasi selengkapnya, lihat Mengonfigurasi penghitung kuota bersama.
Contoh konfigurasi ProxyEndpoint:
<ProxyEndpoint name="default">
<PreFlow name="PreFlow">
<Request>
<Step>
<Name>LLMTokenQuota-Enforce-Only</Name>
</Step>
</Request>
<Response>
<Step>
<Name>LLMTokenQuota-Count-Only</Name>
</Step>
</Response>
<Response/>
</PreFlow>
<Flows/>
<PostFlow name="PostFlow">
<Request/>
<Response/>
</PostFlow>
<HTTPProxyConnection>
<BasePath>/quota-shared-name</BasePath>
</HTTPProxyConnection>
<RouteRule name="noroute"/>
</ProxyEndpoint>Contoh kebijakan LLMTokenQuota pertama:
<LLMTokenQuota name="LLMTokenQuota-Enforce-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <EnforceOnly>true</EnforceOnly> <Allow count="15000"/> <Interval>30</Interval> <TimeUnit>minute</TimeUnit> <Distributed>true</Distributed> </LLMTokenQuota>
Contoh kebijakan LLMTokenQuota kedua:
<LLMTokenQuota name="LLMTokenQuota-Count-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <!-- Same name as the first LLMTokenQuota policy --> <CountOnly>true</CountOnly> <Allow count="15000"/> <Interval>30</Interval> <TimeUnit>minute</TimeUnit> <Distributed>true</Distributed> <LLMTokenUsageSource> {jsonPath('$.usageMetadata.candidatesTokenCount',response.content,true)} </LLMTokenUsageSource> <LLMModelSource>{jsonPath('$.model',response.content,true)}</LLMModelSource> </LLMTokenQuota>
Permintaan Pertama
<LLMTokenQuota name="MyLLMTokenQuota"> <Interval>1</Interval> <TimeUnit>hour</TimeUnit> <Allow count="10000"/> </LLMTokenQuota>
Gunakan contoh kode ini untuk menerapkan kuota 10.000 token per satu jam. Kebijakan ini mereset penghitung kuota di awal setiap jam. Jika penghitung mencapai kuota 10.000 token sebelum akhir jam, panggilan API yang menggunakan token di atas 10.000 akan ditolak.
Misalnya, jika penghitung dimulai pada 2025-07-08 07:00:00, penghitung akan direset ke
0 pada 2025-07-08 08:00:00 (1 jam dari waktu mulai). Jika permintaan pertama diterima pada 2025-07-08 07:35:28 dan jumlah token mencapai 10.000 sebelum 2025-07-08 08:00:00, permintaan yang menggunakan token di luar jumlah tersebut akan ditolak hingga jumlahnya direset pada awal jam.
Waktu reset penghitung didasarkan pada kombinasi <Interval> dan
<TimeUnit>. Misalnya, jika Anda menetapkan <Interval> ke
12 untuk <TimeUnit> jam, penghitung akan direset setiap dua belas jam.
Anda dapat menyetel <TimeUnit> ke menit, jam, hari, minggu, atau bulan.
Anda dapat mereferensikan kebijakan ini di beberapa tempat dalam proxy API Anda. Misalnya, Anda dapat menempatkannya di Proxy PreFlow sehingga dijalankan pada setiap permintaan. Atau, Anda dapat menempatkannya di beberapa alur dalam proxy API. Jika Anda menggunakan kebijakan ini di beberapa tempat dalam proxy, kebijakan ini akan mempertahankan satu penghitung yang diperbarui oleh semua instance kebijakan.
Atau, Anda dapat menentukan beberapa kebijakan LLMTokenQuota di proxy API. Setiap kebijakan LLMTokenQuota
mempertahankan counternya sendiri, berdasarkan atribut name kebijakan.
Menetapkan ID
<LLMTokenQuota name="LLMTokenQuotaPolicy" type="calendar"> <Identifier ref="request.header.clientId"/> <StartTime>2025-02-18 10:00:00</StartTime> <Interval>5</Interval> <TimeUnit>hour</TimeUnit> <Allow count="99"/> </LLMTokenQuota>
Secara default, kebijakan LLMTokenQuota menentukan satu penghitung untuk proxy API, terlepas dari
asal permintaan. Atau, Anda dapat menggunakan atribut <Identifier> dengan kebijakan LLMTokenQuota untuk mempertahankan penghitung terpisah berdasarkan nilai atribut <Identifier>.
Misalnya, gunakan tag <Identifier> untuk menentukan penghitung terpisah untuk setiap ID klien. Pada permintaan ke proxy Anda, aplikasi klien kemudian meneruskan header yang berisi
clientID, seperti yang ditunjukkan dalam contoh di atas.
Anda dapat menentukan variabel alur apa pun ke atribut <Identifier>. Misalnya, Anda dapat menentukan bahwa parameter kueri bernama id berisi ID unik:
<Identifier ref="request.queryparam.id"/>
Jika Anda menggunakan kebijakan VerifyAPIKey untuk memvalidasi kunci API, atau kebijakan OAuthV2
dengan token OAuth, Anda dapat menggunakan informasi dalam kunci API atau token untuk menentukan
penghitung individual untuk kebijakan LLMTokenQuota yang sama. Misalnya, elemen
<Identifier> berikut menggunakan variabel alur client_id dari
kebijakan VerifyAPIKey bernama verify-api-key:
<Identifier ref="verifyapikey.verify-api-key.client_id"></Identifier>
Setiap nilai client_id yang unik kini menentukan counternya sendiri dalam kebijakan LLMTokenQuota.
Class
<LLMTokenQuota name="LLMTokenQuotaPolicy">
<Interval>1</Interval>
<TimeUnit>day</TimeUnit>
<Allow>
<Class ref="request.header.developer_segment">
<Allow class="platinum" count="10000"/>
<Allow class="silver" count="1000" />
</Class>
</Allow>
</LLMTokenQuota>Anda dapat menetapkan batas LLMTokenQuota secara dinamis menggunakan jumlah LLMTokenQuota berbasis class. Dalam contoh ini,
batas kuota ditentukan oleh nilai header developer_segment
yang diteruskan dengan setiap permintaan. Variabel tersebut dapat memiliki nilai platinum
atau silver. Jika header memiliki nilai yang tidak valid, kebijakan akan menampilkan error pelanggaran kuota.
Contoh berikut menggambarkan berbagai konfigurasi kebijakan LLMTokenQuota.
Menghitung Token
Contoh ini menunjukkan cara menghitung token.
<LLMTokenQuota name="LTQ-Count-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <CountOnly>true</CountOnly> <Allow count="15000"/> <Interval>30</Interval> <TimeUnit>minute</TimeUnit> <Distributed>true</Distributed> <LLMTokenUsageSource> {jsonPath('$.usageMetadata.candidatesTokenCount',response.content,true)} </LLMTokenUsageSource> <LLMModelSource>{jsonPath('$.model',response.content,true)}</LLMModelSource> </LLMTokenQuota>
Menghitung Variabel Dinamis Kuota menggunakan Produk API, Developer, dan Aplikasi
Contoh ini menunjukkan cara menghitung variabel dinamis kuota menggunakan Produk API, Developer, dan Aplikasi.
<LLMTokenQuota name="LTQ-Count-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <CountOnly>true</CountOnly> <Interval ref="verifyapikey.verify-api-key.apiproduct.developer.llmQuota.interval">1</Interval> <TimeUnit ref="verifyapikey.verify-api-key.apiproduct.developer.llmQuota.timeunit">hour</TimeUnit> <Allow count="200" countRef="verifyapikey.verify-api-key.apiproduct.developer.llmQuota.limit"/> <Distributed>true</Distributed> <LLMTokenUsageSource> {jsonPath('$.usageMetadata.candidatesTokenCount',response.content,true)} </LLMTokenUsageSource> <LLMModelSource>{jsonPath('$.model',response.content,true)}</LLMModelSource> </LLMTokenQuota>
Menerapkan Kuota tanpa Produk API
Contoh ini menunjukkan cara menerapkan kuota tanpa Produk API.
<LLMTokenQuota name="Quota-Enforce-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <EnforceOnly>true</EnforceOnly> <Allow count="15000"/> <Interval>30</Interval> <TimeUnit>minute</TimeUnit> <Distributed>true</Distributed> </LLMTokenQuota>
Menerapkan Kuota dengan Produk API, Developer, dan Aplikasi
Contoh ini menunjukkan cara menerapkan kuota dengan Produk API, Developer, dan Aplikasi.
<LLMTokenQuota name="Quota-Enforce-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <EnforceOnly>true</EnforceOnly> <Interval ref="verifyapikey.verify-api-key.apiproduct.developer.llmQuota.interval">1</Interval> <TimeUnit ref="verifyapikey.verify-api-key.apiproduct.developer.llmQuota.timeunit">hour</TimeUnit> <Allow count="200" countRef="verifyapikey.verify-api-key.apiproduct.developer.llmQuota.limit"/> <Distributed>true</Distributed> </LLMTokenQuota>
Dengan aliran SSE
Contoh ini menunjukkan cara menggunakan LLMTokenQuota dengan aliran SSE.
Kebijakan jumlah Kuota Token:
<LLMTokenQuota name="LTQ-Count-Only" type="rollingwindow"> <SharedName>common-counter</SharedName> <CountOnly>true</CountOnly> <Allow count="15000"/> <Interval>30</Interval> <TimeUnit>minute</TimeUnit> <Distributed>true</Distributed> <LLMTokenUsageSource> {jsonPath('$.usageMetadata.candidatesTokenCount',response.content,true)} </LLMTokenUsageSource> <LLMModelSource>{jsonPath('$.model',response.content,true)}</LLMModelSource> </LLMTokenQuota>
Alur Peristiwa:
<EventFlow content-type="text/event-stream"> <Response> <Step> <Name>LTQ-Count-Only</Name> </Step> </Response> </EventFlow>
Elemen <LLMTokenQuota>
Berikut adalah atribut dan elemen turunan <LLMTokenQuota>. Perhatikan bahwa
beberapa kombinasi elemen bersifat eksklusif atau tidak diperlukan. Lihat contoh untuk penggunaan tertentu.
Variabel verifyapikey.my-verify-key-policy.apiproduct.* di bawah tersedia secara default saat kebijakan VerifyAPIKey yang disebut my-verify-key-policy digunakan untuk memeriksa kunci API aplikasi dalam permintaan. Nilai variabel berasal dari setelan kuota pada produk API yang terkait dengan kunci, seperti yang dijelaskan dalam Mendapatkan setelan kuota dari konfigurasi produk API.
<LLMTokenQuota continueOnError="false" enabled="true" name="LTQ-TokenQuota-1" type="calendar"> <DisplayName>Quota 3</DisplayName> <LLMTokenUsageSource>{jsonPath('$.usageMetadata.candidatesTokenCount',response.content,true)}</LLMTokenUsageSource> <LLMModelSource>{jsonPath('$.model',response.content,true)}</LLMModelSource> <Allow count="UPPER_REQUEST_LIMIT" countRef="verifyapikey.my-verify-key-policy.apiproduct.developer.llmquota.limit"/> <Allow> <Class ref="request.queryparam.time_variable"> <Allow class="peak_time" count="UPPER_LIMIT_DURING_PEAK"/> <Allow class="off_peak_time" count="UPPER_LIMIT_DURING_OFFPEAK"/> </Class> </Allow> <Interval ref="verifyapikey.my-verify-key-policy.apiproduct.developer.llmquota.interval"> 1 </Interval> <TimeUnit ref="verifyapikey.my-verify-key-policy.apiproduct.developer.llmquota.timeunit"> month </TimeUnit> <StartTime>2025-7-16 12:00:00</StartTime> <Distributed>false</Distributed> <Synchronous>false</Synchronous> <AsynchronousConfiguration> <SyncIntervalInSeconds>20</SyncIntervalInSeconds> <SyncMessageCount>5</SyncMessageCount> </AsynchronousConfiguration> <Identifier/> <IgnoreUnresolvedVariables>false</IgnoreUnresolvedVariables> <UseQuotaConfigInAPIProduct> <DefaultConfig> <Allow> <Class ref="request.queryparam.time_variable"> <Allow class="peak_time" count="5000"/> <Allow class="off_peak_time" count="1000"/> </Class> </Allow> <Interval ref="verifyapikey.my-verify-key-policy.apiproduct.developer.llmquota.interval"> 1 </Interval> <TimeUnit ref="verifyapikey.my-verify-key-policy.apiproduct.developer.llmquota.timeunit"> month </TimeUnit> </DefaultConfig> </UseQuotaConfigInAPIProduct> <SharedName/> <EnforceOnly>true</EnforceOnly> </LLMTokenQuota>
Atribut berikut khusus untuk kebijakan ini:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
type |
Menetapkan jenis kebijakan LLMTokenQuota, yang menentukan kapan dan bagaimana penghitung kuota memeriksa penggunaan kuota serta cara meresetnya. Jika Anda tidak menyetel Nilai yang valid mencakup:
Untuk deskripsi lengkap setiap jenis, lihat Jenis kebijakan LLMTokenQuota. |
T/A | Opsional |
Tabel berikut menjelaskan atribut yang umum untuk semua elemen induk kebijakan:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
name |
Nama internal kebijakan. Nilai atribut Secara opsional, gunakan elemen |
T/A | Wajib |
continueOnError |
Tetapkan ke Tetapkan ke |
false | Opsional |
enabled |
Tetapkan ke Tetapkan ke |
benar | Opsional |
async |
Atribut ini tidak digunakan lagi. |
false | Tidak digunakan lagi |
Elemen <DisplayName>
Gunakan selain atribut name untuk melabeli kebijakan di editor proxy UI pengelolaan dengan nama bahasa alami yang berbeda.
<DisplayName>Policy Display Name</DisplayName>
| Default |
T/A Jika Anda menghapus elemen ini, nilai atribut |
|---|---|
| Kehadiran | Opsional |
| Jenis | String |
<Allow>
Menentukan jumlah total token yang diizinkan untuk interval waktu yang ditentukan. Jika penghitung untuk kebijakan mencapai nilai batas ini, panggilan API berikutnya akan ditolak hingga penghitung direset.
Juga dapat berisi elemen <Class> yang mengondisikan elemen <Allow>
berdasarkan variabel alur.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Jenis Bilangan Bulat atau Kompleks |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
<Class> |
Di bawah ini adalah tiga cara untuk menyetel elemen <Allow>:
<Allow count="2000"/>
<Allow countRef="verifyapikey.VerifyAPIKey.apiproduct.developer.llmquota.limit"/>
<Allow count="2000" countRef="verifyapikey.VerifyAPIKey.apiproduct.developer.llmquota.limit"/>
Jika Anda menentukan count dan countRef, countRef akan diprioritaskan. Jika countRef tidak diselesaikan saat runtime, nilai
count akan digunakan.
Anda juga dapat menentukan elemen <Class> sebagai turunan <Allow> untuk menentukan jumlah
kebijakan yang diizinkan berdasarkan variabel alur. Apigee mencocokkan nilai variabel alur dengan
atribut class
elemen <Allow>, seperti yang ditunjukkan di bawah:
<Allow> <Class ref="request.queryparam.time_variable"> <Allow class="peak_time" count="5000"/> <Allow class="off_peak_time" count="1000"/> </Class> </Allow>
Tabel berikut mencantumkan atribut <Allow>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
count |
Gunakan untuk menentukan jumlah token untuk kuota. Misalnya, nilai atribut |
2000 | Opsional |
countRef |
Gunakan untuk menentukan variabel alur yang berisi jumlah token untuk kuota.
|
tidak ada | Opsional |
<Class>
Memungkinkan Anda membuat nilai bersyarat
elemen <Allow> berdasarkan nilai variabel alur. Untuk
setiap tag turunan <Allow> yang berbeda dari <Class>,
kebijakan mempertahankan penghitung yang berbeda.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Jenis kompleks |
| Elemen Induk |
<Allow>
|
| Elemen Turunan |
<Allow> (turunan dari <Class>) |
Untuk menggunakan elemen <Class>, tentukan variabel alur menggunakan
atribut ref ke elemen <Class>. Apigee kemudian menggunakan nilai
variabel alur untuk memilih salah satu elemen turunan <Allow> guna menentukan jumlah
kebijakan yang diizinkan. Apigee mencocokkan nilai variabel alur dengan atribut class
elemen <Allow>, seperti yang ditunjukkan di bawah:
<Allow> <Class ref="request.queryparam.time_variable"> <Allow class="peak_time" count="5000"/> <Allow class="off_peak_time" count="1000"/> </Class> </Allow>
Dalam contoh ini, penghitung kuota saat ini ditentukan oleh nilai
parameter kueri time_variable yang diteruskan dengan setiap permintaan. Variabel tersebut dapat memiliki nilai
peak_time atau off_peak_time. Jika parameter kueri berisi nilai yang tidak valid, kebijakan akan menampilkan error pelanggaran kuota.
Tabel berikut mencantumkan atribut <Class>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
ref |
Gunakan untuk menentukan variabel alur yang berisi class kuota untuk kuota. | tidak ada | Wajib |
<Allow> (anak dari <Class>)
Menentukan batas untuk penghitung kuota
yang ditentukan oleh elemen <Class>. Untuk setiap
tag turunan <Allow> yang berbeda dari <Class>, kebijakan
mempertahankan penghitung yang berbeda.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Jenis kompleks |
| Elemen Induk |
<Class>
|
| Elemen Turunan |
Tidak ada |
Contoh:
<Allow> <Class ref="request.queryparam.time_variable"> <Allow class="peak_time" count="5000"/> <Allow class="off_peak_time" count="1000"/> </Class> </Allow>
Dalam contoh ini, kebijakan LLMTokenQuota mempertahankan dua penghitung kuota bernama
peak_time dan off_peak_time. Mana yang digunakan bergantung pada
parameter kueri yang diteruskan, seperti yang ditunjukkan dalam contoh <Class>.
Tabel berikut mencantumkan atribut <Allow>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
class |
Menentukan nama penghitung kuota. | tidak ada | Wajib |
count |
Menentukan batas kuota untuk penghitung. | tidak ada | Wajib |
<IgnoreUnresolvedVariables>
Menentukan apakah pemrosesan kebijakan LLMTokenQuota berhenti jika Apigee tidak dapat menyelesaikan variabel
yang dirujuk oleh atribut ref dalam kebijakan.
| Nilai Default | false |
| Wajib? | Opsional |
| Jenis | Boolean |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Tetapkan ke true untuk mengabaikan variabel yang belum terselesaikan dan melanjutkan pemrosesan;
jika tidak, false. Nilai defaultnya adalah false.
Jika <IgnoreUnresolvedVariables> disetel ke true, dan variabel
yang ditentukan dalam atribut ref tidak dapat diselesaikan, Apigee akan mengabaikan
atribut ref. Jika elemen yang berisi atribut ref juga berisi nilai, seperti <Allow count="2000"/>, Apigee akan menggunakan nilai tersebut. Jika tidak ada nilai, Apigee memperlakukan nilai
elemen sebagai null dan mengganti nilai default, jika ada, atau
string kosong.
Jika <IgnoreUnresolvedVariables> adalah false, dan variabel
yang ditentukan dalam atribut ref tidak dapat diselesaikan, Apigee akan menampilkan
error.
<Interval>
Menentukan jumlah jangka waktu saat kuota dihitung.
| Nilai Default | T/A |
| Wajib? | Wajib |
| Jenis | Bilangan bulat |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Gunakan untuk menentukan bilangan bulat (misalnya, 1, 2, 5, 60, dan sebagainya) yang akan dipasangkan dengan elemen
<TimeUnit> yang Anda tentukan (menit, jam, hari, minggu, atau bulan) untuk menentukan jangka
waktu saat Apigee menghitung penggunaan kuota.
Misalnya, interval 24 dengan <TimeUnit> hour
berarti kuota akan dihitung selama 24 jam.
<Interval ref="verifyapikey.VerifyAPIKey.apiproduct.developer.llmquota.interval">1</Interval>
Tabel berikut mencantumkan atribut <Interval>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
ref |
Gunakan untuk menentukan variabel alur yang berisi interval untuk
kuota. |
tidak ada | Opsional |
<TimeUnit>
Menentukan unit waktu yang berlaku untuk kuota.
| Nilai Default | T/A |
| Wajib? | Wajib |
| Jenis | String |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Pilih dari minute, hour, day,
week, month, atau year.
Misalnya, Interval 24 dengan
TimeUnit hour berarti kuota akan
dihitung selama 24 jam.
<TimeUnit ref="verifyapikey.VerifyAPIKey.apiproduct.developer.llmquota.timeunit">month</TimeUnit>
Tabel berikut mencantumkan atribut <TimeUnit>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
ref |
Menentukan variabel alur yang berisi unit waktu untuk kuota. ref
lebih diutamakan daripada nilai interval eksplisit. Jika ref tidak
dapat diselesaikan saat runtime, nilai interval akan digunakan. |
tidak ada | Opsional |
<StartTime>
Jika type disetel ke calendar, tentukan tanggal
dan waktu saat penghitung kuota mulai menghitung, terlepas dari apakah ada permintaan yang
diterima dari aplikasi mana pun.
| Nilai Default | T/A |
| Wajib? | Opsional (Wajib diisi jika type ditetapkan ke calendar) |
| Jenis | String dalam format tanggal dan waktu ISO 8601 |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Contoh:
<StartTime>2025-7-16 12:00:00</StartTime>
<Distributed>
Menentukan apakah Apigee menggunakan satu atau beberapa node untuk memproses permintaan.
| Nilai Default | false |
| Wajib? | Opsional |
| Jenis | Boolean |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Setel ke true untuk menentukan bahwa kebijakan harus mempertahankan penghitung
pusat dan terus menyinkronkannya di semua node. Node
dapat berada di seluruh zona ketersediaan dan/atau region.
Jika Anda menggunakan nilai default false, Anda mungkin melebihi kuota karena
jumlah untuk setiap node tidak dibagikan:
<Distributed>false</Distributed>
Untuk menjamin bahwa penghitung disinkronkan, dan diperbarui pada setiap permintaan, tetapkan
<Distributed> dan <Synchronous> ke true:
<Distributed>true</Distributed> <Synchronous>true</Synchronous>
<Synchronous>
Menentukan apakah akan memperbarui penghitung kuota terdistribusi secara serentak.
| Nilai Default | false |
| Wajib? | Opsional |
| Jenis | Boolean |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Tetapkan ke true untuk memperbarui penghitung kuota terdistribusi secara serentak. Hal ini berarti update ke penghitung dilakukan pada saat yang sama dengan kuota diperiksa pada permintaan ke API. Tetapkan ke true jika Anda tidak boleh mengizinkan panggilan API apa pun melebihi kuota.
Setel ke false untuk memperbarui penghitung kuota secara asinkron. Artinya, ada kemungkinan beberapa panggilan API yang melebihi kuota akan berhasil dilakukan, bergantung pada waktu pembaruan penghitung kuota di repositori pusat secara asinkron. Namun, Anda tidak akan menghadapi potensi dampak performa yang terkait dengan update sinkron.
Interval update asinkron default adalah 10 detik. Gunakan elemen
<AsynchronousConfiguration> untuk mengonfigurasi perilaku asinkron ini.
<Synchronous>false</Synchronous>
<AsynchronousConfiguration>
Mengonfigurasi interval sinkronisasi di antara penghitung kuota terdistribusi saat elemen konfigurasi
kebijakan <Synchronous> tidak ada atau ada dan disetel
ke false. Apigee mengabaikan elemen ini jika <Synchronous> ditetapkan ke
true.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Jenis kompleks |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
<SyncIntervalInSeconds><SyncMessageCount> |
Anda dapat menentukan perilaku sinkronisasi menggunakan
elemen turunan <SyncIntervalInSeconds> atau <SyncMessageCount>. Gunakan salah satu atau
kedua elemen. Misalnya,
<AsynchronousConfiguration> <SyncIntervalInSeconds>20</SyncIntervalInSeconds> </AsynchronousConfiguration>
atau
<AsynchronousConfiguration> <SyncIntervalInSeconds>20</SyncIntervalInSeconds> <SyncMessageCount>5</SyncMessageCount> </AsynchronousConfiguration>
- Jika hanya
<SyncIntervalInSeconds>yang ada, kuota disinkronkan setiap N detik, dengan N adalah nilai yang ditentukan dalam elemen, terlepas dari jumlah pesan yang telah ditangani. - Jika hanya
<SyncMessageCount>yang ada, kuota disinkronkan setiap M pesan, dengan M adalah nilai yang ditentukan dalam elemen, atau setiap 10 detik, mana saja yang lebih dulu. - Jika kedua elemen ada, kuota disinkronkan setiap M pesan atau setiap N detik, mana saja yang lebih dulu.
- Jika
<AsynchronousConfiguration>tidak ada atau tidak ada elemen turunan, kuota disinkronkan setiap 10 detik, terlepas dari jumlah pesan yang telah ditangani.
<SyncIntervalInSeconds>
Menggantikan perilaku default saat update asinkron dilakukan setelah interval 10 detik.
| Nilai Default | 10 detik |
| Wajib? | Opsional |
| Jenis | Bilangan bulat |
| Elemen Induk |
<AsynchronousConfiguration>
|
| Elemen Turunan |
Tidak ada |
<AsynchronousConfiguration> <SyncIntervalInSeconds>20</SyncIntervalInSeconds> </AsynchronousConfiguration>
Interval sinkronisasi harus >= 10 detik, seperti yang dijelaskan dalam Batas.
<SyncMessageCount>
Menentukan jumlah permintaan yang akan diproses sebelum menyinkronkan penghitung kuota.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Bilangan bulat |
| Elemen Induk |
<AsynchronousConfiguration>
|
| Elemen Turunan |
Tidak ada |
<AsynchronousConfiguration> <SyncMessageCount>5</SyncMessageCount> </AsynchronousConfiguration>
Dengan menggunakan konfigurasi dalam contoh ini, di setiap node, jumlah kuota akan disinkronkan setelah setiap 5 permintaan, atau setiap 10 detik, mana saja yang lebih dulu.
<LLMTokenUsageSource>
Memberikan sumber penggunaan token dari respons LLM. Nilai ini harus berupa template pesan yang di-resolve ke satu nilai penggunaan token. Jika kebijakan bukan bagian dari alur peristiwa dan tidak dapat mengekstrak jumlah token dari
sumber yang ditentukan, kebijakan akan memunculkan error runtime policies.ratelimit.FailedToResolveTokenUsageCount.
| Nilai Default | {jsonPath('$.usageMetadata.candidatesTokenCount',response.content,true)} |
| Wajib? | Opsional |
| Jenis | String |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Contoh berikut menunjukkan cara menentukan sumber penggunaan token:
<LLMTokenUsageSource>{jsonPath('$.usageMetadata.candidatesTokenCount', response.content, true)}</LLMTokenUsageSource><LLMModelSource>
Memberikan sumber nama model dari respons LLM atau permintaan LLM. Ini harus berupa template pesan yang memberikan satu nilai nama model.
| Nilai Default | |
| Wajib? | Opsional |
| Jenis | String |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Contoh berikut menunjukkan cara menentukan sumber model dari permintaan:
<LLMModelSource>{jsonPath('$.model', request.content, true)}</LLMModelSource><Identifier>
Mengonfigurasi kebijakan untuk membuat penghitung unik berdasarkan variabel alur.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | String |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Melalui elemen Identifier, Anda dapat mengalokasikan jumlah token ke bucket berbeda yang ditentukan oleh nilai dalam variabel
alur. Misalnya, Anda dapat menggunakan variabel developer.id, yang diisi setelah
kebijakan VerifyAPIKey, untuk menerapkan satu batas kuota ke
semua instance semua aplikasi yang dibuat oleh setiap developer tertentu, atau Anda dapat menggunakan client_id
untuk menerapkan batas kuota untuk setiap aplikasi tertentu. Konfigurasi untuk yang terakhir terlihat seperti ini:
<Identifier ref="client_id"/>
Anda dapat merujuk ke variabel kustom yang mungkin Anda tetapkan dengan kebijakan AssignMessage atau kebijakan JavaScript, atau variabel yang ditetapkan secara implisit, seperti yang ditetapkan oleh kebijakan VerifyAPIKey atau kebijakan VerifyJWT. Untuk mengetahui informasi selengkapnya tentang variabel, lihat Menggunakan Variabel Alur, dan untuk mengetahui daftar variabel terkenal yang ditentukan oleh Apigee, lihat Referensi variabel alur.
Jika Anda tidak menggunakan elemen ini, kebijakan akan mengalokasikan semua jumlah token ke dalam satu penghitung untuk kebijakan LLMTokenQuota tertentu.
Tabel berikut menjelaskan atribut <Identifier>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
ref |
Menentukan variabel alur yang mengidentifikasi penghitung yang akan digunakan untuk permintaan. Variabel dapat merujuk ke header HTTP, parameter kueri, parameter formulir, atau elemen konten pesan, atau nilai lain untuk mengidentifikasi cara mengalokasikan jumlah token.
|
T/A | Opsional |
<UseQuotaConfigInAPIProduct>
Menentukan setelan kuota untuk produk API, seperti unit waktu, interval, dan maksimum yang diizinkan.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Jenis kompleks |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
<DefaultConfig> |
Jika Anda menambahkan elemen <UseQuotaConfigInAPIProduct> ke kebijakan LLMTokenQuota, Apigee akan mengabaikan elemen turunan <Allow>, <Interval>, dan <TimeUnit> dari LLMTokenQuotaPolicy.
Elemen <UseQuotaConfigInAPIProduct> hanyalah penampung untuk setelan default yang Anda
tentukan menggunakan elemen <DefaultConfig>, seperti yang ditunjukkan dalam contoh berikut:
<UseQuotaConfigInAPIProduct stepName="POLICY_NAME"> <DefaultConfig>...</DefaultConfig> </UseQuotaConfigInAPIProduct>
Anda dapat menggunakan atribut stepName untuk mereferensikan VerifyAPIKey policy
atau operasi kebijakan ValidateToken dari OAuthv2 policy dalam alur.
Tabel berikut menjelaskan atribut <UseQuotaConfigInAPIProduct>:
| Atribut | Deskripsi | Default | Kehadiran |
|---|---|---|---|
stepName |
Mengidentifikasi nama kebijakan autentikasi dalam alur. Target dapat berupa kebijakan VerifyAPIKey atau kebijakan OAuthv2. | T/A | Wajib |
Untuk informasi selengkapnya, lihat referensi berikut:
<DefaultConfig>
Berisi nilai default untuk kuota produk API. Saat Anda menentukan <DefaultConfig>,
ketiga elemen turunan diperlukan.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | Jenis kompleks |
| Elemen Induk |
<UseQuotaConfigInAPIProduct>
|
| Elemen Turunan |
<Allow><Interval><TimeUnit> |
Anda dapat menentukan nilai ini pada operasi produk API (baik dengan UI atau API produk API) dan dalam kebijakan LLMTokenQuota. Namun, jika Anda melakukannya, setelan di produk API akan lebih diutamakan dan setelan di kebijakan LLMTokenQuota akan diabaikan.
Sintaksis untuk elemen ini adalah sebagai berikut:
<UseQuotaConfigInAPIProduct stepName="POLICY_NAME">
<DefaultConfig>
<Allow>allow_count</Allow>
<Interval>interval</Interval>
<TimeUnit>[minute|hour|day|week|month]</TimeUnit>
</DefaultConfig>
</UseQuotaConfigInAPIProduct>Contoh berikut menentukan kuota 10.000 setiap minggu:
<DefaultConfig> <Allow>10000</Allow> <Interval>1</Interval> <TimeUnit>week</TimeUnit> </DefaultConfig>
Untuk informasi selengkapnya, lihat referensi berikut:
<SharedName>
Mengidentifikasi kebijakan LLMTokenQuota ini sebagai bersama. Semua kebijakan LLMTokenQuota dalam proxy API dengan
nilai <SharedName> yang sama berbagi penghitung kuota pokok yang sama.
Untuk mengetahui informasi dan contoh selengkapnya, lihat Mengonfigurasi penghitung kuota bersama.
| Nilai Default | T/A |
| Wajib? | Opsional |
| Jenis | String |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
<CountOnly>
Tempatkan kebijakan LLMTokenQuota dengan elemen ini yang ditetapkan ke true di
langkah dalam alur respons ProxyEndpoint untuk melacak jumlah token
tanpa mengirimkan error kembali ke klien saat batas kuota token
terlampaui. Jika elemen ini ada, elemen <SharedName>
juga harus ada dan elemen <EnforceOnly>
tidak boleh ada.
Untuk mengetahui informasi dan contoh selengkapnya, lihat Mengonfigurasi penghitung kuota bersama.
| Nilai Default | false |
| Wajib? | Opsional |
| Jenis | Boolean |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
<EnforceOnly>
Tempatkan kebijakan LLMTokenQuota dengan elemen ini yang ditetapkan ke true dalam
alur permintaan proxy API untuk menerapkan batas token tanpa
menaikkan penghitung kuota. Jika elemen ini ada, <SharedName> juga harus ada dan elemen <CountOnly> tidak boleh ada.
Untuk mengetahui informasi dan contoh selengkapnya, lihat Mengonfigurasi penghitung kuota bersama.
| Nilai Default | false |
| Wajib? | Opsional |
| Jenis | Boolean |
| Elemen Induk |
<LLMTokenQuota>
|
| Elemen Turunan |
Tidak ada |
Variabel alur
Variabel Alur bawaan berikut diisi secara otomatis saat kebijakan LLMTokenQuota dijalankan. Untuk mengetahui informasi selengkapnya, lihat Referensi variabel alur.
| Variabel | Jenis | Izin | Deskripsi |
|---|---|---|---|
| ratelimit.{policy_name}.allowed.count | Long | Hanya Baca | Menampilkan jumlah kuota yang diizinkan. |
| ratelimit.{policy_name}.used.count | Long | Hanya Baca | Menampilkan kuota saat ini yang digunakan dalam interval kuota. |
| ratelimit.{policy_name}.available.count | Long | Hanya Baca | Menampilkan jumlah kuota yang tersedia dalam interval kuota. |
| ratelimit.{policy_name}.exceed.count | Long | Hanya Baca | Menampilkan 1 setelah kuota terlampaui. |
| ratelimit.{policy_name}.total.exceed.count | Long | Hanya Baca | Menampilkan 1 setelah kuota terlampaui. |
| ratelimit.{policy_name}.expiry.time | Long | Hanya Baca |
Menampilkan waktu UTC (dalam milidetik), yang menentukan kapan kuota berakhir dan kapan interval kuota baru dimulai.
Jika jenis kebijakan LLMTokenQuota adalah |
| ratelimit.{policy_name}.identifier | String | Hanya Baca | Menampilkan referensi ID (klien) yang dilampirkan ke kebijakan |
| ratelimit.{policy_name}.class | String | Hanya Baca | Menampilkan class yang terkait dengan ID klien |
| ratelimit.{policy_name}.class.allowed.count | Long | Hanya Baca | Menampilkan jumlah kuota yang diizinkan yang ditentukan dalam class |
| ratelimit.{policy_name}.class.used.count | Long | Hanya Baca | Menampilkan kuota yang digunakan dalam suatu kelas |
| ratelimit.{policy_name}.class.available.count | Long | Hanya Baca | Menampilkan jumlah kuota yang tersedia di kelas |
| ratelimit.{policy_name}.class.exceed.count | Long | Hanya Baca | Menampilkan jumlah token yang melebihi batas dalam class di interval kuota saat ini |
| ratelimit.{policy_name}.class.total.exceed.count | Long | Hanya Baca | Menampilkan jumlah total token yang melampaui batas di kelas di semua
interval kuota, sehingga merupakan jumlah class.exceed.count untuk semua
interval kuota. |
| ratelimit.{policy_name}.failed | Boolean | Hanya Baca |
Menunjukkan apakah kebijakan gagal atau tidak (benar atau salah). |
| llmtokenquota.{policy_name}.model | String | Hanya Baca | Menampilkan model yang diekstrak. |
Referensi error
Bagian ini menjelaskan kode kesalahan dan pesan error yang ditampilkan serta variabel kesalahan yang ditetapkan oleh Apigee saat kebijakan ini memicu error. Informasi ini penting untuk diketahui jika Anda mengembangkan aturan kesalahan untuk menangani kesalahan. Untuk mempelajari lebih lanjut, lihat Yang perlu Anda ketahui tentang error kebijakan dan Menangani kesalahan.
Error runtime
Error ini dapat terjadi saat kebijakan dijalankan.
| Kode kesalahan | Status HTTP | Penyebab | Perbaiki |
|---|---|---|---|
policies.llmtokenquota.FailedToResolveModelName |
400 |
Nama model tidak dapat diselesaikan. | T/A |
policies.llmtokenquota.FailedToResolveTokenUsageCount |
500 |
Jumlah penggunaan token tidak dapat diselesaikan. | T/A |
policies.llmtokenquota.MessageTemplateExtractionFailed |
400 |
Ekstraksi template pesan gagal. | T/A |
policies.llmtokenquota.LLMTokenQuotaViolation |
429 |
Batas kuota token LLM terlampaui. | T/A |
policies.ratelimit.FailedToResolveQuotaIntervalReference |
500 |
Terjadi jika elemen <Interval> tidak ditentukan
dalam kebijakan LLMTokenQuota. Elemen ini
wajib ada dan digunakan untuk menentukan interval waktu yang berlaku untuk
kuota token LLM. Interval waktu dapat berupa menit, jam, hari, minggu,
atau bulan sebagaimana ditentukan dengan elemen <TimeUnit>.
|
build |
policies.ratelimit.FailedToResolveQuotaIntervalTimeUnitReference |
500 |
Terjadi jika elemen <TimeUnit> tidak ditentukan
dalam kebijakan LLMTokenQuota. Elemen ini wajib ada dan digunakan untuk menentukan unit waktu yang berlaku untuk kuota token LLM. Interval waktu dapat berupa menit, jam, hari, minggu,
atau bulan.
|
build |
Error saat deployment
| Nama error | Penyebab | Perbaiki |
|---|---|---|
policies.llmtokenquota.MessageWeightNotSupported |
Error saat elemen 'MessageWeight' digunakan, karena tidak didukung. | T/A |
policies.llmtokenquota.InvalidConfiguration |
Tepatnya salah satu dari <CountOnly> atau <EnforceOnly> harus disetel ke benar (true). | T/A |
InvalidQuotaInterval |
Jika interval kuota token LLM yang ditentukan dalam elemen <Interval> bukan bilangan bulat, deployment proxy API akan gagal. Misalnya, jika interval kuota yang
ditentukan adalah 0,1 dalam elemen <Interval>, maka deployment
proxy API akan gagal.
|
build |
InvalidQuotaTimeUnit |
Jika unit waktu yang ditentukan dalam elemen <TimeUnit> tidak didukung,
maka deployment proxy API akan gagal. Unit waktu yang didukung adalah minute,
hour, day, week, dan month.
|
build |
InvalidQuotaType |
Jika jenis kuota token LLM yang ditentukan oleh atribut type dalam elemen <LLMTokenQuota>
tidak valid, deployment proxy API akan gagal. Jenis kuota yang didukung adalah default, calendar, flexi, dan rollingwindow.
|
build |
InvalidStartTime |
Jika format waktu yang ditentukan dalam elemen <StartTime> tidak valid, maka deployment proxy API akan gagal. Format yang valid adalah yyyy-MM-dd HH:mm:ss,
yang merupakan format tanggal dan waktu ISO 8601. Misalnya, jika waktu yang ditentukan dalam elemen <StartTime> adalah 7-16-2017 12:00:00, maka deployment proxy API akan gagal.
|
build |
StartTimeNotSupported |
Jika elemen <StartTime> yang jenis kuotanya bukan
jenis calendar ditentukan, deployment proxy API akan gagal. Elemen <StartTime>
hanya didukung untuk jenis kuota calendar. Misalnya, jika atribut type ditetapkan
ke flexi atau rolling window dalam elemen <LLMTokenQuota>, maka
deployment proxy API akan gagal.
|
build |
InvalidSynchronizeIntervalForAsyncConfiguration |
Jika nilai yang ditentukan untuk elemen <SyncIntervalInSeconds> dalam
elemen <AsynchronousConfiguration> dalam kebijakan LLMTokenQuota kurang dari nol, maka
deployment proxy API akan gagal. |
build |
InvalidAsynchronizeConfigurationForSynchronousQuota |
Jika nilai elemen <AsynchronousConfiguration> ditetapkan ke true dalam kebijakan LLMTokenQuota, yang juga
memiliki konfigurasi asinkron yang ditentukan menggunakan elemen <AsynchronousConfiguration>, maka
deployment proxy API akan gagal. |
build |
Variabel kesalahan
Variabel ini ditetapkan saat kebijakan ini memicu error. Untuk mengetahui informasi selengkapnya, lihat Yang perlu Anda ketahui tentang error kebijakan.
| Variabel | Di mana | Contoh |
|---|---|---|
fault.name="fault_name" |
fault_name adalah nama kesalahan, seperti yang tercantum dalam tabel Error runtime di atas. Nama kesalahan adalah bagian terakhir dari kode kesalahan. | fault.name Matches "LLMTokenQuotaViolation" |
ratelimit.policy_name.failed |
policy_name adalah nama kebijakan yang ditentukan pengguna yang menyebabkan kesalahan. | ratelimit.QT-LLMTokenQuotaPolicy.failed = true |
Contoh respons error
{ "fault":{ "detail":{ "errorcode":"policies.llmtokenquota.LLMTokenQuotaViolation" }, "faultstring":"Rate limit LLM Token quota violation. Quota limit exceeded. Identifier : _default" } }
Contoh aturan kesalahan
<FaultRules>
<FaultRule name="LLMTokenQuota Errors">
<Step>
<Name>JavaScript-1</Name>
<Condition>(fault.name Matches "LLMTokenQuotaViolation") </Condition>
</Step>
<Condition>ratelimit.LLMTokenQuota-1.failed=true</Condition>
</FaultRule>
</FaultRules>