Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PayGo Standar

Bayar sesuai penggunaan standar (Standard PayGo) adalah opsi penggunaan untuk memanfaatkan rangkaian model AI generatif Platform Agen Gemini Enterprise. Dengan Standard PayGo, Anda hanya membayar resource yang Anda gunakan, tanpa memerlukan komitmen keuangan di muka. Untuk memberikan performa yang lebih dapat diprediksi untuk beban kerja yang dapat diskalakan, Standard PayGo menggabungkan sistem tingkat penggunaan. Platform Agen menyesuaikan kapasitas throughput dasar organisasi Anda secara dinamis, berdasarkan total pembelanjaan layanan Platform Agen yang memenuhi syarat selama periode 30 hari. Seiring pertumbuhan pembelanjaan organisasi Anda, organisasi tersebut akan otomatis dipromosikan ke tingkat yang lebih tinggi yang memberikan peningkatan akses ke resource bersama dan nilai minimum performa yang lebih tinggi.

Tingkatan penggunaan dan throughput

Setiap tingkat penggunaan Standard PayGo bertujuan untuk memberikan throughput dasar, yang diukur dalam token per menit (TPM), yang berfungsi sebagai batas performa yang dapat diprediksi untuk traffic organisasi Anda. Batas throughput didasarkan pada permintaan yang dikirim ke endpoint global. Menggunakan endpoint global adalah praktik terbaik, karena memberikan akses ke kumpulan kapasitas throughput multi-region yang lebih besar dan memungkinkan perutean permintaan Anda ke lokasi dengan ketersediaan paling tinggi untuk memaksimalkan performa.

Traffic Anda tidak dibatasi secara ketat pada batas Throughput Dasar. Platform Agen memungkinkan traffic melampaui batas ini berdasarkan upaya terbaik. Namun, selama periode permintaan tinggi di seluruh platform Platform Agen, traffic burst berlebih ini mungkin memiliki variabilitas performa yang lebih tinggi. Untuk mengoptimalkan performa dan meminimalkan kemungkinan menerima error ini, sebaiknya distribusikan traffic Anda secara merata sepanjang setiap menit. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua. Traffic yang tinggi dan instan dapat menyebabkan pembatasan meskipun penggunaan rata-rata per menit Anda berada di bawah batas. Mendistribusikan panggilan API secara lebih merata membantu sistem mengelola beban Anda secara terprediksi dan meningkatkan performa secara keseluruhan.

Tingkatan berikut tersedia di Standard PayGo:

Model Keluarga	Tingkat	Pembelanjaan Pelanggan (30 Hari)	TPM Traffic (Tingkat Org.)
Model Gemini Pro	Tingkat 1	$10 - $250	500.000
	Tingkat 2	$250 - $2000	1.000.000
	Tingkat 3	> $2.000	2.000.000
Model Gemini Flash dan Flash-Lite	Tingkat 1	$10 - $250	2.000.000
	Tingkat 2	$250 - $2000	4.000.000
	Tingkat 3	> $2.000	10.000.000

Batas throughput yang ditampilkan untuk keluarga model berlaku secara independen untuk setiap model dalam keluarga tersebut. Misalnya, pelanggan di Tingkat 3 memiliki throughput dasar 10.000.000 TPM untuk Gemini 2.5 Flash dan throughput dasar terpisah 10.000.000 TPM untuk Gemini 2.0 Flash. Penggunaan terhadap salah satu batas ini tidak memengaruhi throughput untuk model lain. Tidak ada batas permintaan per menit (RPM) terpisah untuk setiap tingkat. Namun, batas sistem 30.000 RPM per model per region berlaku. Permintaan Gemini dengan input multimodal tunduk pada batas frekuensi sistem yang sesuai, termasuk gambar, audio, video, dan dokumen.

Jika Anda memerlukan throughput yang lebih tinggi untuk kasus penggunaan perusahaan, hubungi tim akun Anda untuk mengetahui informasi selengkapnya tentang tingkat kustom.

Cara kerja tingkat penggunaan

Tingkat penggunaan Anda ditentukan secara otomatis oleh total pembelanjaan organisasi Anda untuk layanan Gemini Enterprise Agent Platform yang memenuhi syarat selama periode 30 hari yang terus berjalan. Seiring peningkatan pembelanjaan organisasi Anda, sistem akan mempromosikan Anda ke tingkat yang lebih tinggi dengan throughput yang lebih besar.

Penghitungan pembelanjaan

Penghitungan ini mencakup berbagai layanan, mulai dari prediksi pada semua rangkaian model Gemini hingga instance CPU, GPU, dan TPU Gemini Enterprise Agent Platform, serta SKU berbasis komitmen, seperti Throughput yang Disediakan.

Klik untuk mempelajari lebih lanjut SKU yang disertakan dalam penghitungan pembelanjaan.

Tabel berikut mencantumkan kategori Google Cloud SKU yang disertakan dalam penghitungan total pembelanjaan.

Kategori	Deskripsi SKU yang disertakan
Model Gemini	Semua rangkaian model Gemini (misalnya, 2.0, 2.5, 3.0 dalam versi Pro, Flash, dan Lite) untuk prediksi di semua modalitas (Teks, Gambar, Audio, Video), termasuk variasi batch, konteks panjang, yang di-tuning, dan "berpikir"
Fitur Model Gemini	Semua SKU Gemini terkait untuk fitur seperti Caching, Caching Storage, dan Tingkatan Prioritas, di semua modalitas dan versi model
CPU Platform Agen	Prediksi Online dan Batch pada semua kelompok instance berbasis CPU (misalnya, C2, C3, E2, N1, N2, dan variannya)
GPU Platform Agen	Prediksi Online dan Batch di semua instance berakselerasi GPU NVIDIA (misalnya, seri A100, H100, H200, B200, L4, T4, V100, dan RTX)
TPU Platform Agen	Prediksi Online dan Batch di semua instance berbasis TPU (misalnya, TPU-v5e, v6e)
Pengelolaan & Biaya	Semua SKU "Biaya pengelolaan" yang terkait dengan berbagai instance prediksi Agent Platform
Throughput yang Disediakan	Semua SKU berbasis komitmen untuk Throughput yang Disediakan
Layanan Lainnya	Layanan khusus seperti "LLM Grounding untuk Gemini... dengan alat Google Penelusuran"

Memverifikasi tingkat penggunaan

Untuk memverifikasi tingkat penggunaan organisasi Anda, buka Dasbor Gemini Enterprise Agent Platform di konsol Google Cloud .

Verifikasi pembelanjaan

Untuk meninjau pembelanjaan Agent Platform, buka Penagihan Cloud di konsolGoogle Cloud . Pembelanjaan digabungkan di tingkat organisasi.

Buka Penagihan Cloud

Error Resource Habis (429)

Jika Anda menerima error 429: Resource Exhausted, hal ini tidak menunjukkan bahwa Anda telah mencapai kuota tetap. Hal ini menunjukkan persaingan tinggi sementara untuk resource bersama tertentu. Sebaiknya terapkan strategi coba lagi backoff eksponensial untuk menangani error ini, karena ketersediaan di lingkungan dinamis ini dapat berubah dengan cepat. Selain strategi coba lagi, sebaiknya gunakan endpoint global. Tidak seperti endpoint regional (misalnya, us-central1), endpoint global secara dinamis merutekan permintaan Anda ke region dengan kapasitas paling banyak yang tersedia pada saat itu. Hal ini memungkinkan aplikasi Anda mengakses kumpulan kapasitas bersama multi-region yang lebih besar, sehingga meningkatkan potensi keberhasilan bursting secara signifikan dan mengurangi kemungkinan terjadinya error 429.

Untuk mendapatkan hasil terbaik, gabungkan penggunaan endpoint global dengan perataan traffic. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua, karena traffic yang tinggi dan instan dapat menyebabkan pembatasan, meskipun penggunaan rata-rata per menit Anda berada dalam batas Throughput Dasar. Mendistribusikan panggilan API secara lebih merata akan membantu sistem mengelola beban Anda secara terprediksi dan meningkatkan performa secara keseluruhan. Untuk informasi tambahan tentang cara menangani error Kehabisan Resource, lihat Panduan untuk menangani error 429 dan Kode error 429.

Memantau throughput dan performa

Untuk memantau penggunaan token real-time organisasi Anda, buka Metrics Explorer di Cloud Monitoring.

Buka Metrics Explorer

Untuk mengetahui informasi selengkapnya tentang pemantauan traffic endpoint model, lihat Memantau model.

Perhatikan bahwa tingkat penggunaan berlaku di tingkat organisasi. Untuk mengetahui informasi tentang menetapkan cakupan pengamatan untuk memetakan throughput di beberapa project dalam organisasi Anda, lihat Mengonfigurasi cakupan pengamatan untuk kueri multi-project.