Kuota dan batas sistem

Dokumen ini mencantumkan kuota dan batas sistem yang berlaku untuk Vertex AI Agent Builder.

Kuota memiliki nilai default, tetapi biasanya Anda dapat meminta penyesuaian.
Batas sistem adalah nilai tetap yang tidak dapat diubah.

Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi jumlah Google Cloud resource yang dapat digunakan Google Cloud project Anda. Kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan. Misalnya, kuota dapat membatasi jumlah panggilan API ke suatu layanan, jumlah load balancer yang digunakan secara bersamaan oleh project Anda, atau jumlah project yang dapat Anda buat. Kuota melindungi komunitas penggunaGoogle Cloud dengan mencegah kelebihan beban layanan. Kuota juga membantu Anda mengelola resource Google Cloud sendiri.

Sistem Kuota Cloud melakukan hal berikut:

Memantau pemakaian Google Cloud produk dan layanan
Membatasi pemakaian resource tersebut
Menyediakan cara untuk meminta perubahan pada nilai kuota dan mengotomatiskan penyesuaian kuota

Dalam sebagian besar kasus, saat Anda mencoba menggunakan resource melebihi kuota yang diizinkan, sistem akan memblokir akses ke resource tersebut, dan tugas yang Anda coba lakukan akan gagal.

Kuota umumnya berlaku di level Google Cloud project. Penggunaan resource dalam satu project tidak memengaruhi kuota yang tersedia dalam project lain. Dalam project Google Cloud , kuota dibagikan ke semua aplikasi dan alamat IP.

Untuk mengetahui informasi selengkapnya, lihat Ringkasan Kuota Cloud.

Kuota Vertex AI Agent Engine

Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region:

Deskripsi	Kuota	Metrik
Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit	100	`aiplatform.googleapis.com/session_write_requests`
`Query` atau `StreamQuery` Vertex AI Agent Engine per menit	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit	300	`aiplatform.googleapis.com/session_event_append_requests`
Jumlah maksimum resource Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Mendapatkan, mencantumkan, atau mengambil dari Bank Memori Vertex AI Agent Engine per menit	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Permintaan eksekusi per menit di lingkungan sandbox (Eksekusi Kode)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entitas lingkungan sandbox (Eksekusi Kode) per region	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Permintaan postingan Agen A2A seperti `sendMessage` dan `cancelTask`per menit	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Permintaan get Agen A2A seperti `getTask` dan `getCard` per menit	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Koneksi dua arah live serentak menggunakan `BidiStreamQuery` API per menit	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Pengelolaan kuota untuk beban produksi

Seiring skala traffic Anda, Anda mungkin perlu meminta penambahan kuota Vertex AI API tertentu untuk menghindari error 429 Resource Exhausted. Anda dapat secara proaktif mengonfigurasi runtime dan meningkatkan kuota untuk menjaga Vertex AI Agent Engine Runtime tetap responsif, skalabel, dan andal di bawah beban produksi.

Untuk mengetahui informasi tentang cara mengoptimalkan dan menskalakan performa Vertex AI Agent Engine, lihat Mengoptimalkan dan menskalakan performa Runtime Vertex AI Agent Engine.

Gunakan langkah-langkah berikut untuk memperkirakan persyaratan kuota puncak Anda:

Tentukan variabel Anda:
- U: Pengguna serentak puncak (misalnya, 250).
- X: Rata-rata permintaan per pengguna per menit (misalnya, 2).
- Y: Rata-rata peristiwa sesi yang dihasilkan per permintaan (misalnya, 12 untuk rantai kompleks yang melibatkan beberapa panggilan alat).
Menghitung beban puncak:
- Hitung kueri puncak per menit (QPM): U * X
- Hitung peristiwa sesi puncak per menit: QPM Puncak * Y
Minta kuota dengan buffer: Saat Anda meminta penambahan kuota, tambahkan buffer (misalnya, 50%) di atas puncak yang dihitung untuk menangani lonjakan yang tidak terduga.

Tabel berikut menunjukkan perhitungan untuk kuota utama terkait performa untuk Vertex AI Agent Engine, menggunakan contoh variabel peak concurrent users=250, average requests per user per minute=2, dan average session events generated per request=12:

Nama kuota Deskripsi kuota Penghitungan dasar (puncak) Nilai yang direkomendasikan (dengan buffer 50%)

Kueri Agent Engine per menit (aiplatform.googleapis.com/reasoning_engine_service_query_requests) Total jumlah panggilan query atau stream_query yang dapat diterima agen Anda per menit. 250 users * 2 req/min = 500 QPM 500 * 1.5 = 750

Nama kuota	Deskripsi kuota	Penghitungan dasar (puncak)	Nilai yang direkomendasikan (dengan buffer 50%)
Kueri Agent Engine per menit (`aiplatform.googleapis.com/reasoning_engine_service_query_requests`)	Total jumlah panggilan `query` atau `stream_query` yang dapat diterima agen Anda per menit.	`250 users * 2 req/min = 500 QPM`	`500 * 1.5 =` `750`
Tambahkan peristiwa sesi per menit (`aiplatform.googleapis.com/session_event_append_requests`)	Jumlah giliran atau peristiwa dalam semua sesi yang sedang berlangsung. Satu kueri dapat menghasilkan beberapa peristiwa sesi dalam rantai, misalnya: Panggil LLM. Respons LLM: gunakan alat. Jalankan alat. Panggil LLM dengan respons alat. LLM memberikan respons akhir.	`500 QPM * 12 events/req = 6,000`	`6,000 * 1.5 =` `9,000`
Penulisan sesi per menit (`aiplatform.googleapis.com/session_write_requests`)	Kecepatan pembuatan atau pembaruan resource sesi. Nilai ini biasanya kurang dari atau sama dengan kecepatan kueri.	Biasanya <= QPM Puncak (`500`)	Biasanya <= kuota kueri (`750`)

Tambahkan peristiwa sesi per menit (aiplatform.googleapis.com/session_event_append_requests)

Jumlah giliran atau peristiwa dalam semua sesi yang sedang berlangsung. Satu kueri dapat menghasilkan beberapa peristiwa sesi dalam rantai, misalnya:

Panggil LLM.
Respons LLM: gunakan alat.
Jalankan alat.
Panggil LLM dengan respons alat.
LLM memberikan respons akhir.

500 QPM * 12 events/req = 6,000

6,000 * 1.5 = 9,000

Penulisan sesi per menit (aiplatform.googleapis.com/session_write_requests) Kecepatan pembuatan atau pembaruan resource sesi. Nilai ini biasanya kurang dari atau sama dengan kecepatan kueri. Biasanya <= QPM Puncak (500) Biasanya <= kuota kueri (750)

Meminta penyesuaian kuota

Untuk menyesuaikan sebagian besar kuota, gunakan konsol Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Meminta penyesuaian kuota.

Kouta mode Express Vertex AI Agent Engine

Pengguna mode ekspres Tingkat Gratis Vertex AI memiliki kuota berikut untuk layanan Vertex AI Agent Engine tanpa biaya. Lihat Ringkasan Vertex AI dalam mode Ekspres untuk mengetahui informasi selengkapnya tentang Tingkat Gratis dan mode ekspres. Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project mode ekspres tertentu di setiap region:

Deskripsi	Kuota	Metrik
Jumlah maksimum resource Vertex AI Agent Engine	10	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
`Query` atau `StreamQuery` Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Koneksi dua arah live serentak menggunakan `BidiStreamQuery` API per menit	1	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`
Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/session_write_requests`
Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit	30	`aiplatform.googleapis.com/session_event_append_requests`
Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/memory_bank_write_requests`
Mendapatkan, mencantumkan, atau mengambil dari Bank Memori Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/memory_bank_read_requests`