Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kouta dan batas sistem AI Generatif di Gemini Enterprise Agent Platform

Halaman ini menyediakan daftar kuota menurut region dan model, serta menunjukkan cara melihat dan mengedit kuota di konsol Google Cloud .

Kuota model yang disesuaikan

Inferensi model yang disesuaikan memiliki kuota yang sama dengan model dasar. Tidak ada kuota terpisah untuk inferensi model yang di-tune.

Batas penyematan

Permintaan untuk gemini-embedding-001 tunduk pada kuota regional, sedangkan permintaan untuk gemini-embedding-2 tunduk pada kuota global.

Model dasar	Kuota	Metrik
base_model: gemini-embedding	5.000.000	`aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	10.000.000	`aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model`
base_model: gemini-embedding-2	40.000	`aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model`

Permintaan untuk gemini-embedding-001 menggunakan predict API juga tunduk pada kuota berikut:

Model dasar	Kuota	Metrik
base_model: gemini-embedding	100.000	`aiplatform.googleapis.com/online_prediction_requests_per_base_model`
base_model: T/A	30.000	`aiplatform.googleapis.com/online_prediction_requests`

Kuota Vertex AI Agent Engine

Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region:

Deskripsi	Kuota	Metrik
Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit	10	`aiplatform.googleapis.com/reasoning_engine_service_write_requests`
Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit	100	`aiplatform.googleapis.com/session_write_requests`
Mendapatkan, membuat daftar, atau mengambil sesi Vertex AI Agent Engine per menit	10000	`aiplatform.googleapis.com/session_read_requests`
`Query` atau `StreamQuery` Vertex AI Agent Engine per menit	90	`aiplatform.googleapis.com/reasoning_engine_service_query_requests`
Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit	300	`aiplatform.googleapis.com/session_event_append_requests`
Jumlah maksimum resource Vertex AI Agent Engine	100	`aiplatform.googleapis.com/reasoning_engine_service_entities`
Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit	100	`aiplatform.googleapis.com/memory_bank_write_requests`
Mendapatkan, mencantumkan, atau mengambil dari Memory Bank Vertex AI Agent Engine per menit	300	`aiplatform.googleapis.com/memory_bank_read_requests`
Permintaan eksekusi per menit di lingkungan sandbox (Eksekusi Kode)	1000	`aiplatform.googleapis.com/sandbox_environment_execute_requests`
Entitas lingkungan sandbox (Eksekusi Kode) per region	1000	`aiplatform.googleapis.com/sandbox_environment_entities`
Permintaan tulis per menit lingkungan sandbox (Eksekusi Kode)	500	`aiplatform.googleapis.com/sandbox_environment_write_requests`
Permintaan postingan Agen A2A seperti `sendMessage` dan `cancelTask` per menit	60	`aiplatform.googleapis.com/a2a_agent_post_requests`
Permintaan pengambilan Agen A2A seperti `getTask` dan `getCard` per menit	600	`aiplatform.googleapis.com/a2a_agent_get_requests`
Koneksi dua arah live serentak menggunakan `BidiStreamQuery` API per menit	10	`aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests`

Prediksi batch

Kuota dan batas untuk tugas inferensi batch sama di semua region.

Batas tugas inferensi batch serentak untuk model Gemini

Tidak ada batas kuota yang telah ditentukan sebelumnya pada inferensi batch untuk model Gemini. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan model secara real-time di semua pelanggan untuk model tersebut. Jika lebih banyak pelanggan yang aktif dan memenuhi kapasitas model, permintaan batch Anda mungkin dimasukkan dalam antrean untuk kapasitas.

Kuota tugas inferensi batch serentak untuk model non-Gemini

Tabel berikut mencantumkan kuota untuk jumlah tugas inferensi batch serentak, yang tidak berlaku untuk model Gemini:

Kuota	Nilai
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4

Jika jumlah tugas yang dikirimkan melebihi kuota yang dialokasikan, tugas akan ditempatkan dalam antrean dan diproses saat kapasitas kuota tersedia.

Melihat dan mengedit kuota di konsol Google Cloud

Untuk melihat dan mengedit kuota di konsol Google Cloud , lakukan hal berikut:

Buka halaman Quotas and System Limits.

Buka Quotas and System Limits

Untuk menyesuaikan kuota, salin dan tempel properti aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs di Filter. Tekan Enter.
Klik tiga titik di akhir baris, lalu pilih Edit kuota.
Masukkan nilai kuota baru di panel, lalu klik Kirim permintaan.

Mesin RAG di Platform Agen Gemini Enterprise

Agar setiap layanan dapat melakukan Retrieval-Augmented Generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).

Layanan	Kuota	Metrik
API pengelolaan data RAG Engine	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	600 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Filter tambahan yang dapat Anda tentukan adalah `base_model: textembedding-gecko`

Batasan berikut berlaku:

Layanan	Batas	Metrik
Permintaan `ImportRagFiles` serentak	3 RPM	`VertexRagService concurrent import requests per region`
Jumlah maksimum file per permintaan `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Untuk mengetahui kuota dan batas frekuensi panggilan lainnya, lihat Batas frekuensi panggilan AI Generatif di Gemini Enterprise Agent Platform.

Layanan evaluasi AI generatif

Layanan evaluasi AI generatif menggunakan Gemini 2.5 Flash sebagai model penilai default untuk metrik berbasis model. Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan pokok ke layanan evaluasi AI generatif. Konsumsi setiap model dihitung di tingkat organisasi, yang berarti bahwa setiap permintaan yang ditujukan ke model penilaian untuk inferensi model dan evaluasi berbasis model berkontribusi pada konsumsi model. Kouta untuk layanan evaluasi AI generatif dan model hakim yang mendasarinya ditampilkan dalam tabel berikut:

Minta kuota	Kuota default
Permintaan layanan evaluasi AI generatif per menit	1.000 permintaan per project per region
Throughput Gemini	Bergantung pada model dan opsi pemakaian
Menjalankan evaluasi serentak	20 proses evaluasi serentak per project per region

Jika Anda menerima error terkait kuota saat menggunakan layanan evaluasi AI generatif, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan mengelola kuota untuk mengetahui informasi selengkapnya.

Batas	Nilai
Waktu tunggu habis untuk permintaan layanan evaluasi AI generatif	60 detik

Saat menggunakan layanan evaluasi AI generatif untuk pertama kalinya dalam project baru, Anda mungkin mengalami penundaan penyiapan awal hingga dua menit. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Jumlah maksimum token input dan output untuk metrik berbasis model bergantung pada model yang digunakan sebagai model penilai. Lihat Model Google untuk mengetahui daftar model.

Kuota Pipeline Gemini Enterprise Agent Platform

Setiap tugas penyetelan menggunakan Gemini Enterprise Agent Platform Pipelines. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Pipeline Platform Agen.

Langkah berikutnya

Ringkasan

Kouta dan batas sistem AI Generatif di Gemini Enterprise Agent Platform

Kuota model yang disesuaikan

Batas penyematan

Kuota Vertex AI Agent Engine

Prediksi batch

Batas tugas inferensi batch serentak untuk model Gemini

Kuota tugas inferensi batch serentak untuk model non-Gemini

Melihat dan mengedit kuota di konsol Google Cloud

Mesin RAG di Platform Agen Gemini Enterprise

Layanan evaluasi AI generatif

Kuota Pipeline Gemini Enterprise Agent Platform

Langkah berikutnya

Standard PayGo

Kuota dan batas sistem Agent Platform

Kouta Google Cloud

Kouta dan batas sistem AI Generatif di Gemini Enterprise Agent Platform Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kuota model yang disesuaikan

Batas penyematan

Kuota Vertex AI Agent Engine

Prediksi batch

Batas tugas inferensi batch serentak untuk model Gemini

Kuota tugas inferensi batch serentak untuk model non-Gemini

Melihat dan mengedit kuota di konsol Google Cloud

Mesin RAG di Platform Agen Gemini Enterprise

Layanan evaluasi AI generatif

Kuota Pipeline Gemini Enterprise Agent Platform

Langkah berikutnya

Standard PayGo

Kuota dan batas sistem Agent Platform

Kouta Google Cloud

Kouta dan batas sistem AI Generatif di Gemini Enterprise Agent Platform