Dokumen ini mencantumkan kuota dan batas sistem yang berlaku untuk Vertex AI Agent Builder.
- Kuota memiliki nilai default, tetapi biasanya Anda dapat meminta penyesuaian.
- Batas sistem adalah nilai tetap yang tidak dapat diubah.
Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah Google Cloud resource yang dapat digunakan Google Cloud project Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke suatu layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas penggunaGoogle Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud sendiri.
Sistem Kuota Cloud melakukan hal berikut:
- Memantau pemakaian Google Cloud produk dan layanan
- Membatasi pemakaian resource tersebut
- Menyediakan cara untuk meminta perubahan pada nilai kuota dan mengotomatiskan penyesuaian kuota
Dalam sebagian besar kasus, saat Anda mencoba menggunakan resource melebihi kuota yang diizinkan, sistem akan memblokir akses ke resource tersebut, dan tugas yang Anda coba lakukan akan gagal.
Kuota umumnya berlaku di level Google Cloud project. Penggunaan resource dalam satu project tidak memengaruhi kuota yang tersedia dalam project lain. Dalam project Google Cloud , kuota dibagikan ke semua aplikasi dan alamat IP.
Untuk mengetahui informasi selengkapnya, lihat Ringkasan Kuota Cloud.
Kuota Vertex AI Agent Engine
Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region:| Deskripsi | Kuota | Metrik |
|---|---|---|
| Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
| Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit | 100 | aiplatform.googleapis.com/session_write_requests |
Query atau StreamQuery Vertex AI Agent Engine per menit |
90 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
| Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit | 300 | aiplatform.googleapis.com/session_event_append_requests |
| Jumlah maksimum resource Vertex AI Agent Engine | 100 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit | 100 | aiplatform.googleapis.com/memory_bank_write_requests |
| Mendapatkan, mencantumkan, atau mengambil dari Bank Memori Vertex AI Agent Engine per menit | 300 | aiplatform.googleapis.com/memory_bank_read_requests |
| Permintaan eksekusi per menit di lingkungan sandbox (Eksekusi Kode) | 1000 | aiplatform.googleapis.com/sandbox_environment_execute_requests |
| Entitas lingkungan sandbox (Eksekusi Kode) per region | 1000 | aiplatform.googleapis.com/sandbox_environment_entities |
Permintaan postingan Agen A2A seperti sendMessage dan cancelTaskper menit |
60 | aiplatform.googleapis.com/a2a_agent_post_requests |
Permintaan get Agen A2A seperti getTask dan getCard per menit |
600 | aiplatform.googleapis.com/a2a_agent_get_requests |
Koneksi dua arah live serentak menggunakan BidiStreamQuery API per menit |
10 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
Pengelolaan kuota untuk beban produksi
Seiring skala traffic Anda, Anda mungkin perlu meminta penambahan kuota Vertex AI API tertentu untuk menghindari error 429 Resource Exhausted. Anda dapat
secara proaktif mengonfigurasi runtime dan meningkatkan kuota untuk menjaga
Vertex AI Agent Engine Runtime tetap responsif, skalabel, dan andal di bawah
beban produksi.
Untuk mengetahui informasi tentang cara mengoptimalkan dan menskalakan performa Vertex AI Agent Engine, lihat Mengoptimalkan dan menskalakan performa Runtime Vertex AI Agent Engine.
Gunakan langkah-langkah berikut untuk memperkirakan persyaratan kuota puncak Anda:
Tentukan variabel Anda:
U: Pengguna serentak puncak (misalnya, 250).X: Rata-rata permintaan per pengguna per menit (misalnya, 2).Y: Rata-rata peristiwa sesi yang dihasilkan per permintaan (misalnya, 12 untuk rantai kompleks yang melibatkan beberapa panggilan alat).
Menghitung beban puncak:
Hitung kueri puncak per menit (QPM): U * X
Hitung peristiwa sesi puncak per menit: QPM Puncak * Y
Minta kuota dengan buffer: Saat Anda meminta penambahan kuota, tambahkan buffer (misalnya, 50%) di atas puncak yang dihitung untuk menangani lonjakan yang tidak terduga.
Tabel berikut menunjukkan perhitungan untuk kuota utama terkait performa untuk
Vertex AI Agent Engine, menggunakan contoh variabel peak concurrent users=250,
average requests per user per minute=2, dan average session events generated
per request=12:
| Nama kuota | Deskripsi kuota | Penghitungan dasar (puncak) | Nilai yang direkomendasikan (dengan buffer 50%) |
|---|---|---|---|
Kueri Agent Engine per menit (aiplatform.googleapis.com/reasoning_engine_service_query_requests) |
Total jumlah panggilan query atau stream_query yang dapat diterima agen Anda per menit. |
250 users * 2 req/min = 500 QPM |
500 * 1.5 = 750 |
Tambahkan peristiwa sesi per menit (aiplatform.googleapis.com/session_event_append_requests) |
Jumlah giliran atau peristiwa dalam semua sesi yang sedang berlangsung. Satu kueri dapat menghasilkan beberapa peristiwa sesi dalam rantai, misalnya:
|
500 QPM * 12 events/req = 6,000 |
6,000 * 1.5 = 9,000 |
Penulisan sesi per menit (aiplatform.googleapis.com/session_write_requests) |
Kecepatan pembuatan atau pembaruan resource sesi. Nilai ini biasanya kurang dari atau sama dengan kecepatan kueri. | Biasanya <= QPM Puncak (500) |
Biasanya <= kuota kueri (750) |
Meminta penyesuaian kuota
Untuk menyesuaikan sebagian besar kuota, gunakan konsol Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Meminta penyesuaian kuota.
Kouta mode Express Vertex AI Agent Engine
Pengguna mode ekspres Tingkat Gratis Vertex AI memiliki kuota berikut untuk layanan Vertex AI Agent Engine tanpa biaya. Lihat Ringkasan Vertex AI dalam mode Ekspres untuk mengetahui informasi selengkapnya tentang Tingkat Gratis dan mode ekspres. Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project mode ekspres tertentu di setiap region:| Deskripsi | Kuota | Metrik |
|---|---|---|
| Jumlah maksimum resource Vertex AI Agent Engine | 10 | aiplatform.googleapis.com/reasoning_engine_service_entities |
| Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit | 10 | aiplatform.googleapis.com/reasoning_engine_service_write_requests |
Query atau StreamQuery Vertex AI Agent Engine per menit |
10 | aiplatform.googleapis.com/reasoning_engine_service_query_requests |
Koneksi dua arah live serentak menggunakan BidiStreamQuery API per menit |
1 | aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests |
| Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit | 10 | aiplatform.googleapis.com/session_write_requests |
| Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit | 30 | aiplatform.googleapis.com/session_event_append_requests |
| Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit | 10 | aiplatform.googleapis.com/memory_bank_write_requests |
| Mendapatkan, mencantumkan, atau mengambil dari Bank Memori Vertex AI Agent Engine per menit | 10 | aiplatform.googleapis.com/memory_bank_read_requests |