Mengontrol biaya dengan kuota token
Dokumen ini menjelaskan cara Anda dapat menentukan dan mengelola batas harian pada jumlah token input dan output yang digunakan oleh fungsi AI generatif.Fungsi AI generatif BigQuery menggunakan model bahasa besar (LLM) untuk melakukan analisis lanjutan dalam kueri SQL Anda. Karena penggunaan LLM biasanya ditagih berdasarkan jumlah token yang diproses, BigQuery menyediakan kuota token untuk membantu Anda mengelola dan mengontrol biaya yang terkait dengan penggunaan fungsi ini.
Kuota token berlaku untuk fungsi SQL BigQuery yang dirancang untuk semua tugas inferensi AI generatif yang menggunakan LLM Gemini, seperti fungsi AI.CLASSIFY dan AI.GENERATE.
Detail kuota
BigQuery menyediakan kuota harian berikut berdasarkan penggunaan token LLM. Penggunaan token berkorelasi langsung dengan penagihan Vertex AI Anda untuk fungsi AI generatif BigQuery yang menggunakan model Gemini. Kuota ini dilacak secara global di semua region.
Kuota token ini mengatur jumlah token input dan output yang diproses oleh LLM untuk fungsi AI generatif:
- Token input: Token yang dikirim ke model untuk diproses. Hal ini mencakup token dalam teks perintah dan data lain yang diberikan ke model sebagai input.
- Token output: Token yang dihasilkan oleh model dalam responsnya. Hal ini mencakup token dalam teks yang dihasilkan (token kandidat) dan token yang dihasilkan selama langkah-langkah penalaran internal (token pemikiran).
| Nama kuota | Metrik | Cakupan | Nilai default |
|---|---|---|---|
GenAiInputTokensPerDay |
Token input yang digunakan oleh LLM | Per hari per project | 200.000.000.000 |
GenAiInputTokensPerUserPerDay |
Token input yang digunakan oleh LLM | Per hari per pengguna | 40.000.000.000 |
GenAiOutputTokensPerDay |
Token output dan pemikiran yang digunakan oleh LLM | Per hari per project | 20.000.000.000 |
GenAiOutputTokensPerUserPerDay |
Token output dan pemikiran yang digunakan oleh LLM | Per hari per pengguna | 4.000.000.000 |
Kuota ini dilacak dalam kelipatan jutaan token. Meskipun Anda dapat menetapkan batas yang presisi, nilai yang lebih kecil dari beberapa juta token mungkin tidak tercermin dengan akurasi sempurna karena sifat pelaporan dan penggabungan token.
Token yang di-cache tidak diperhitungkan dalam kuota.
Mengelola kuota
Bergantung pada penggunaan resource, Anda mungkin ingin melihat atau menyesuaikan nilai kuota token Anda ke atas atau ke bawah. Anda dapat menggunakan konsol Google Cloud untuk melakukan tugas berikut:
Di konsol Google Cloud , buka halaman IAM & Admin > Quotas & System Limits.
Filter kuota dengan memasukkan
Service: BigQuery API.Telusuri kuota tertentu dari daftar kuota (misalnya, telusuri
GenAiInputTokensPerDay).Klik Edit.
Naikkan atau turunkan kuota di panel Perubahan kuota dengan memasukkan nilai baru.
- Jika workload Anda memerlukan kapasitas yang lebih besar daripada yang disediakan batas default, Anda dapat meminta penambahan kuota.
- Jika ingin menerapkan batas yang lebih ketat pada penggunaan untuk mencegah pembengkakan anggaran, Anda dapat membuat penggantian kuota untuk membatasi penggunaan.
Klik Submit request.
Perilaku pemberlakuan kuota
BigQuery memantau konsumsi token Anda di beberapa tahap eksekusi kueri:
- Pemeriksaan pra-eksekusi: BigQuery memeriksa kuota token yang tersedia sebelum menjalankan kueri yang berisi fungsi AI generatif. Jika kuota yang relevan (misalnya, token input harian project) sudah habis, kueri akan ditolak dengan error
QuotaExceeded. - Selama eksekusi: Jika kueri sedang berjalan dan menggunakan token sehingga
menghabiskan salah satu kuota yang dikonfigurasi (input atau output, per project atau per
pengguna), panggilan LLM baru dalam kueri tersebut akan ditolak.
- Baris yang tersisa yang bergantung pada panggilan LLM akan mengalami error karena kuota habis.
- Hasil kueri bergantung pada argumen
max_error_ratiojika digunakan dalam fungsi sepertiAI.IF. Jika rasio error tetap dalam batas yang diizinkan, hasil parsial mungkin ditampilkan. Jika tidak, seluruh kueri akan gagal. - Kueri berikutnya yang mencoba menggunakan fungsi AI generatif akan gagal dengan
error
QuotaExceededhingga kuota harian direset.
Pertimbangan penting
- Kuota global: Kuota yang ditentukan bersifat global. Penggunaan token digabungkan di semua region tempat project Anda beroperasi, sehingga memberikan mekanisme kontrol biaya yang terpadu. Tindakan ini mencegah biaya yang tidak terduga dari penggunaan di berbagai region.
- Throughput yang disediakan: Jika Anda menggunakan model Vertex AI dengan throughput yang disediakan, penagihan tidak didasarkan pada penggunaan token. Anda harus menetapkan kuota token BigQuery ini ke nilai yang tinggi untuk menghindari pemblokiran kueri yang tidak perlu.
Langkah berikutnya
- Pelajari lebih lanjut cara mengoptimalkan biaya fungsi AI.
- Baca ringkasan AI generatif di BigQuery.