Mengontrol biaya dengan kuota token

Dokumen ini menjelaskan cara Anda dapat menentukan dan mengelola batas harian pada jumlah token input dan output yang digunakan oleh fungsi AI generatif.

Fungsi AI generatif BigQuery menggunakan model bahasa besar (LLM) untuk melakukan analisis lanjutan dalam kueri SQL Anda. Karena penggunaan LLM biasanya ditagih berdasarkan jumlah token yang diproses, BigQuery menyediakan kuota token untuk membantu Anda mengelola dan mengontrol biaya yang terkait dengan penggunaan fungsi ini.

Kuota token berlaku untuk fungsi SQL BigQuery yang dirancang untuk semua tugas inferensi AI generatif yang menggunakan LLM Gemini, seperti fungsi AI.CLASSIFY dan AI.GENERATE.

Detail kuota

BigQuery menyediakan kuota harian berikut berdasarkan penggunaan token LLM. Penggunaan token berkorelasi langsung dengan penagihan Vertex AI Anda untuk fungsi AI generatif BigQuery yang menggunakan model Gemini. Kuota ini dilacak secara global di semua region.

Kuota token ini mengatur jumlah token input dan output yang diproses oleh LLM untuk fungsi AI generatif:

  • Token input: Token yang dikirim ke model untuk diproses. Hal ini mencakup token dalam teks perintah dan data lain yang diberikan ke model sebagai input.
  • Token output: Token yang dihasilkan oleh model dalam responsnya. Hal ini mencakup token dalam teks yang dihasilkan (token kandidat) dan token yang dihasilkan selama langkah-langkah penalaran internal (token pemikiran).
Nama kuota Metrik Cakupan Nilai default
GenAiInputTokensPerDay Token input yang digunakan oleh LLM Per hari per project 200.000.000.000
GenAiInputTokensPerUserPerDay Token input yang digunakan oleh LLM Per hari per pengguna 40.000.000.000
GenAiOutputTokensPerDay Token output dan pemikiran yang digunakan oleh LLM Per hari per project 20.000.000.000
GenAiOutputTokensPerUserPerDay Token output dan pemikiran yang digunakan oleh LLM Per hari per pengguna 4.000.000.000

Kuota ini dilacak dalam kelipatan jutaan token. Meskipun Anda dapat menetapkan batas yang presisi, nilai yang lebih kecil dari beberapa juta token mungkin tidak tercermin dengan akurasi sempurna karena sifat pelaporan dan penggabungan token.

Token yang di-cache tidak diperhitungkan dalam kuota.

Mengelola kuota

Bergantung pada penggunaan resource, Anda mungkin ingin melihat atau menyesuaikan nilai kuota token Anda ke atas atau ke bawah. Anda dapat menggunakan konsol Google Cloud untuk melakukan tugas berikut:

  1. Di konsol Google Cloud , buka halaman IAM & Admin > Quotas & System Limits.

    Buka Quotas & System Limits

  2. Filter kuota dengan memasukkan Service: BigQuery API.

  3. Telusuri kuota tertentu dari daftar kuota (misalnya, telusuri GenAiInputTokensPerDay).

  4. Klik Edit.

  5. Naikkan atau turunkan kuota di panel Perubahan kuota dengan memasukkan nilai baru.

    • Jika workload Anda memerlukan kapasitas yang lebih besar daripada yang disediakan batas default, Anda dapat meminta penambahan kuota.
    • Jika ingin menerapkan batas yang lebih ketat pada penggunaan untuk mencegah pembengkakan anggaran, Anda dapat membuat penggantian kuota untuk membatasi penggunaan.
  6. Klik Submit request.

Perilaku pemberlakuan kuota

BigQuery memantau konsumsi token Anda di beberapa tahap eksekusi kueri:

  • Pemeriksaan pra-eksekusi: BigQuery memeriksa kuota token yang tersedia sebelum menjalankan kueri yang berisi fungsi AI generatif. Jika kuota yang relevan (misalnya, token input harian project) sudah habis, kueri akan ditolak dengan error QuotaExceeded.
  • Selama eksekusi: Jika kueri sedang berjalan dan menggunakan token sehingga menghabiskan salah satu kuota yang dikonfigurasi (input atau output, per project atau per pengguna), panggilan LLM baru dalam kueri tersebut akan ditolak.
    • Baris yang tersisa yang bergantung pada panggilan LLM akan mengalami error karena kuota habis.
    • Hasil kueri bergantung pada argumen max_error_ratio jika digunakan dalam fungsi seperti AI.IF. Jika rasio error tetap dalam batas yang diizinkan, hasil parsial mungkin ditampilkan. Jika tidak, seluruh kueri akan gagal.
    • Kueri berikutnya yang mencoba menggunakan fungsi AI generatif akan gagal dengan error QuotaExceeded hingga kuota harian direset.

Pertimbangan penting

  • Kuota global: Kuota yang ditentukan bersifat global. Penggunaan token digabungkan di semua region tempat project Anda beroperasi, sehingga memberikan mekanisme kontrol biaya yang terpadu. Tindakan ini mencegah biaya yang tidak terduga dari penggunaan di berbagai region.
  • Throughput yang disediakan: Jika Anda menggunakan model Vertex AI dengan throughput yang disediakan, penagihan tidak didasarkan pada penggunaan token. Anda harus menetapkan kuota token BigQuery ini ke nilai yang tinggi untuk menghindari pemblokiran kueri yang tidak perlu.

Langkah berikutnya