Halaman ini menyediakan daftar kuota menurut region dan model, serta menunjukkan cara melihat dan mengedit kuota di konsol Google Cloud .
Kuota model yang disesuaikan
Inferensi model yang disesuaikan memiliki kuota yang sama dengan model dasar. Tidak ada kuota terpisah untuk inferensi model yang di-tune.
Batas penyematan teks
Setiap permintaan dapat memiliki hingga 250 teks input (membuat 1 penyematan per teks input) dan 20.000 token per permintaan. Hanya 2.048 token pertama dalam setiap teks input yang digunakan untuk menghitung sematan. Untukgemini-embedding-001, kuota tercantum di bagian nama
gemini-embedding.
Token input konten sematan per menit per model dasar
Tidak seperti model penyematan sebelumnya yang terutama dibatasi oleh kuota RPM, kuota untuk model Penyematan Gemini membatasi jumlah token yang dapat dikirim per menit per project.
| Kuota | Nilai |
|---|---|
| Menyematkan token input konten per menit | 5.000.000 |
Kuota Vertex AI Agent Engine
Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region:| Deskripsi | Kuota | Metrik |
|---|---|---|
| Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit | 100 | aiplatform.googleapis.com/session_write_requests |
Query atau StreamQuery Vertex AI Agent Engine per menit |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Jumlah maksimum resource Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Mendapatkan, mencantumkan, atau mengambil dari Bank Memori Vertex AI Agent Engine per menit | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Permintaan eksekusi per menit di lingkungan Sandbox (Eksekusi Kode) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entitas lingkungan sandbox (Eksekusi Kode) per wilayah | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Permintaan postingan Agen A2A seperti sendMessage dan cancelTaskper menit |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Permintaan get Agen A2A seperti getTask dan getCard per menit |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Koneksi dua arah live serentak menggunakan BidiStreamQuery API per menit |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Prediksi batch
Kuota dan batas untuk tugas inferensi batch sama di semua region.Batas tugas inferensi batch serentak untuk model Gemini
Tidak ada batas kuota yang telah ditentukan sebelumnya pada inferensi batch untuk model Gemini. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan model secara real-time di semua pelanggan untuk model tersebut. Jika lebih banyak pelanggan yang aktif dan memenuhi kapasitas model, permintaan batch Anda mungkin diantrekan untuk kapasitas.Kuota tugas inferensi batch serentak untuk model non-Gemini
Tabel berikut mencantumkan kuota untuk jumlah tugas inferensi batch serentak, yang tidak berlaku untuk model Gemini:| Kuota | Nilai |
|---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Melihat dan mengedit kuota di konsol Google Cloud
Untuk melihat dan mengedit kuota di konsol Google Cloud , lakukan hal berikut:- Buka halaman Quotas and System Limits.
- Untuk menyesuaikan kuota, salin dan tempel properti
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobsdi Filter. Tekan Enter. - Klik tiga titik di akhir baris, lalu pilih Edit kuota.
- Masukkan nilai kuota baru di panel, lalu klik Kirim permintaan.
Mesin RAG Vertex AI
Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).| Layanan | Kuota | Metrik |
|---|---|---|
| API pengelolaan data RAG Engine | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_modelFilter tambahan yang dapat Anda tentukan adalah base_model: textembedding-gecko |
| Layanan | Batas | Metrik |
|---|---|---|
Permintaan ImportRagFiles serentak |
3 RPM | VertexRagService concurrent import requests per region |
Jumlah maksimum file per permintaan ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Untuk mengetahui batas kapasitas dan kuota lainnya, lihat Batas kapasitas AI Generatif di Vertex AI.
Layanan evaluasi AI generatif
Layanan evaluasi AI generatif menggunakan Gemini 2.5 Flash sebagai model penilai default untuk metrik berbasis model. Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan evaluasi AI generatif. Konsumsi setiap model dihitung di tingkat organisasi, yang berarti bahwa setiap permintaan yang ditujukan ke model penilaian untuk inferensi model dan evaluasi berbasis model berkontribusi pada konsumsi model. Kuota untuk layanan evaluasi AI generatif dan model penilaian yang mendasarinya ditampilkan dalam tabel berikut:| Kuota permintaan | Kuota default |
|---|---|
| Permintaan layanan evaluasi AI generatif per menit | 1.000 permintaan per project per region |
| Throughput Gemini | Bergantung pada model dan opsi konsumsi |
| Menjalankan evaluasi serentak | 20 eksekusi evaluasi serentak per project per region |
Jika Anda menerima error terkait kuota saat menggunakan layanan evaluasi AI Generatif, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan mengelola kuota untuk mengetahui informasi selengkapnya.
| Batas | Nilai |
|---|---|
| Waktu tunggu permintaan layanan evaluasi AI generatif habis | 60 detik |
Saat menggunakan layanan evaluasi AI generatif untuk pertama kalinya dalam project baru, Anda mungkin mengalami penundaan penyiapan awal hingga dua menit. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.
Jumlah maksimum token input dan output untuk metrik berbasis model bergantung pada model yang digunakan sebagai model penilai. Lihat Model Google untuk mengetahui daftar model.
Kuota Vertex AI Pipelines
Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Vertex AI Pipelines.
Langkah berikutnya
- Untuk mempelajari lebih lanjut Standard PayGo, lihat Standard PayGo.
- Untuk mempelajari kuota dan batas Vertex AI, lihat Kuota dan batas Vertex AI.
- Untuk mempelajari lebih lanjut kuota dan batas sistem, lihat dokumentasi Cloud Quotas. Google Cloud