Kouta dan batas sistem AI generatif di Platform Agen Gemini Enterprise

Halaman ini menyediakan daftar kuota menurut region dan model, serta menunjukkan cara melihat dan mengedit kuota Anda di Google Cloud konsol.

Kuota model yang disesuaikan

Inferensi model yang disesuaikan menggunakan kuota yang sama dengan model dasar. Tidak ada kuota terpisah untuk inferensi model yang disesuaikan.

Batas penyematan

Permintaan untuk gemini-embedding-001 tunduk pada kuota regional, sedangkan permintaan untuk gemini-embedding-2 tunduk pada kuota global.
Model dasar Quota Metrik
base_model: gemini-embedding 5.000.000 aiplatform.googleapis.com/embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 10.000.000 aiplatform.googleapis.com/global_embed_content_input_tokens_per_minute_per_base_model
base_model: gemini-embedding-2 40.000 aiplatform.googleapis.com/global_embed_content_requests_per_minute_per_base_model

Permintaan untuk gemini-embedding-001 menggunakan predict API juga tunduk pada kuota berikut:

Model dasar Quota Metrik
base_model: gemini-embedding 100.000 aiplatform.googleapis.com/online_prediction_requests_per_base_model
base_model: T/A 30.000 aiplatform.googleapis.com/online_prediction_requests

Kuota Vertex AI Agent Engine

Kuota berikut berlaku untuk Vertex AI Agent Engine untuk project tertentu di setiap region:
Deskripsi Quota Metrik
Membuat, menghapus, atau memperbarui resource Vertex AI Agent Engine per menit 10 aiplatform.googleapis.com/reasoning_engine_service_write_requests
Membuat, menghapus, atau memperbarui sesi Vertex AI Agent Engine per menit 100 aiplatform.googleapis.com/session_write_requests
Mendapatkan, mencantumkan, atau mengambil sesi Vertex AI Agent Engine per menit 10000 aiplatform.googleapis.com/session_read_requests
Query atau StreamQuery Vertex AI Agent Engine per menit 90 aiplatform.googleapis.com/reasoning_engine_service_query_requests
Menambahkan peristiwa ke sesi Vertex AI Agent Engine per menit 300 aiplatform.googleapis.com/session_event_append_requests
Jumlah maksimum resource Vertex AI Agent Engine 100 aiplatform.googleapis.com/reasoning_engine_service_entities
Membuat, menghapus, atau memperbarui resource memori Vertex AI Agent Engine per menit 100 aiplatform.googleapis.com/memory_bank_write_requests
Mendapatkan, mencantumkan, atau mengambil dari Vertex AI Agent Engine Memory Bank per menit 300 aiplatform.googleapis.com/memory_bank_read_requests
Permintaan eksekusi lingkungan sandbox (Eksekusi Kode) per menit 1000 aiplatform.googleapis.com/sandbox_environment_execute_requests
Entity lingkungan sandbox (Eksekusi Kode) per region 1000 aiplatform.googleapis.com/sandbox_environment_entities
Permintaan tulis lingkungan sandbox (Eksekusi Kode) per menit 500 aiplatform.googleapis.com/sandbox_environment_write_requests
Permintaan postingan Agen A2A seperti sendMessage dan cancelTask per menit 60 aiplatform.googleapis.com/a2a_agent_post_requests
Permintaan get Agen A2A seperti getTask dan getCard per menit 600 aiplatform.googleapis.com/a2a_agent_get_requests
Koneksi dua arah langsung serentak menggunakan BidiStreamQuery API per menit 10 aiplatform.googleapis.com/reasoning_engine_service_concurrent_query_requests

Prediksi batch

Kuota dan batas untuk tugas inferensi batch sama di semua region.

Batas tugas inferensi batch serentak untuk model Gemini

Tidak ada batas kuota yang telah ditentukan pada inferensi batch untuk model Gemini. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan resource bersama yang besar, yang dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan real-time model di semua pelanggan untuk model tersebut. Jika lebih banyak pelanggan yang aktif dan kapasitas model sudah penuh, permintaan batch Anda mungkin akan diantrekan untuk kapasitas.

Kuota tugas inferensi batch serentak untuk model non-Gemini

Tabel berikut mencantumkan kuota untuk jumlah tugas inferensi batch serentak, yang tidak berlaku untuk model Gemini:
Quota Nilai
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
Jika jumlah tugas yang dikirimkan melebihi kuota yang dialokasikan, tugas akan ditempatkan dalam antrean dan diproses saat kapasitas kuota tersedia.

Melihat dan mengedit kuota di Google Cloud konsol

Untuk melihat dan mengedit kuota di Google Cloud konsol, lakukan hal berikut:
  1. Buka halaman Kuota dan Batas Sistem.
  2. Buka Kuota dan Batas Sistem

  3. Untuk menyesuaikan kuota, salin dan tempel properti aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs di Filter. Tekan Enter.
  4. Klik tiga titik di akhir baris, lalu pilih Edit kuota.
  5. Masukkan nilai kuota baru di panel, lalu klik Kirim permintaan.

Vertex AI RAG Engine

Untuk setiap layanan yang melakukan Retrieval-Augmented Generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).
Layanan Quota Metrik
API pengelolaan data RAG Engine 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 600 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Filter tambahan yang dapat Anda tentukan adalah base_model: textembedding-gecko
Batasan berikut berlaku:
Layanan Batas Metrik
Permintaan ImportRagFiles serentak 3 RPM VertexRagService concurrent import requests per region
Jumlah maksimum file per permintaan ImportRagFiles 10.000 VertexRagService import rag files requests per region

Untuk mengetahui batas dan kuota kecepatan yang lebih lengkap, lihat AI Generatif di Platform Agen Gemini Enterprise batas kecepatan.

Layanan evaluasi AI generatif

Layanan evaluasi AI generatif menggunakan Gemini 2.5 Flash sebagai model hakim default untuk metrik berbasis model. Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa permintaan yang mendasarinya ke layanan evaluasi AI generatif. Penggunaan setiap model dihitung di tingkat organisasi, yang berarti bahwa setiap permintaan yang diarahkan ke model hakim untuk inferensi model dan evaluasi berbasis model berkontribusi pada penggunaan model. Kuota untuk layanan evaluasi AI generatif dan model hakim yang mendasarinya ditampilkan dalam tabel berikut:
Kuota permintaan Kuota default
Permintaan layanan evaluasi AI generatif per menit 1.000 permintaan per project per region
Throughput Gemini Bergantung pada model dan opsi penggunaan
Operasi evaluasi serentak 20 operasi evaluasi serentak per project per region

Jika Anda menerima error terkait kuota saat menggunakan layanan evaluasi AI generatif, Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan mengelola kuota untuk mengetahui informasi selengkapnya.

Batas Nilai
Batas waktu permintaan layanan evaluasi AI generatif 60 detik

Saat menggunakan layanan evaluasi AI generatif untuk pertama kalinya dalam project baru, Anda mungkin mengalami penundaan penyiapan awal hingga dua menit. Jika permintaan pertama Anda gagal, tunggu beberapa menit, lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Token input dan output maksimum untuk metrik berbasis model bergantung pada model yang digunakan sebagai model hakim. Lihat Model Google untuk mengetahui daftar model.

Kuota Pipelines Platform Agen Gemini Enterprise

Setiap tugas penyesuaian menggunakan Pipelines Platform Agen Gemini Enterprise. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas Pipelines Platform Agen.

Langkah berikutnya

Ringkasan

Pelajari PayGo Standar, opsi penggunaan Platform Agen yang memungkinkan Anda hanya membayar resource yang Anda gunakan, tanpa memerlukan komitmen keuangan di awal.

Resource

Kuota dan batas sistem yang terkait dengan Platform Agen, tidak termasuk kuota dan batas sistem khusus produk.

Ringkasan

Pelajari cara Google Cloud membatasi jumlah resource yang dapat digunakan project Google Cloud Anda, dan cara kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan.