Bayar sesuai penggunaan standar (Standard PayGo) adalah opsi penggunaan untuk memanfaatkan rangkaian model AI generatif Platform Agen Gemini Enterprise. Dengan Standard PayGo, Anda hanya membayar resource yang Anda gunakan, tanpa memerlukan komitmen keuangan di muka. Untuk memberikan performa yang lebih dapat diprediksi untuk beban kerja yang dapat diskalakan, Standard PayGo menggabungkan sistem tingkat penggunaan. Platform Agen menyesuaikan kapasitas throughput dasar organisasi Anda secara dinamis, berdasarkan total pembelanjaan layanan Platform Agen yang memenuhi syarat selama periode 30 hari. Seiring pertumbuhan pembelanjaan organisasi Anda, organisasi tersebut akan otomatis dipromosikan ke tingkat yang lebih tinggi yang memberikan peningkatan akses ke resource bersama dan nilai minimum performa yang lebih tinggi.
Tingkatan penggunaan dan throughput
Setiap tingkat penggunaan Standard PayGo bertujuan untuk memberikan throughput dasar, yang diukur dalam token per menit (TPM), yang berfungsi sebagai batas performa yang dapat diprediksi untuk traffic organisasi Anda. Batas throughput didasarkan pada permintaan yang dikirim ke endpoint global. Menggunakan endpoint global adalah praktik terbaik, karena memberikan akses ke kumpulan kapasitas throughput multi-region yang lebih besar dan memungkinkan perutean permintaan Anda ke lokasi dengan ketersediaan paling tinggi untuk memaksimalkan performa.
Traffic Anda tidak dibatasi secara ketat pada batas Throughput Dasar. Platform Agen memungkinkan traffic melampaui batas ini berdasarkan upaya terbaik. Namun, selama periode permintaan tinggi di seluruh platform Platform Agen, traffic burst berlebih ini mungkin memiliki variabilitas performa yang lebih tinggi. Untuk mengoptimalkan performa dan meminimalkan kemungkinan menerima error ini, sebaiknya distribusikan traffic Anda secara merata sepanjang setiap menit. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua. Traffic yang tinggi dan instan dapat menyebabkan pembatasan meskipun penggunaan rata-rata per menit Anda berada di bawah batas. Mendistribusikan panggilan API secara lebih merata membantu sistem mengelola beban Anda secara terprediksi dan meningkatkan performa secara keseluruhan.
Tingkatan berikut tersedia di Standard PayGo:
| Model Keluarga | Tingkat | Pembelanjaan Pelanggan (30 Hari) | TPM Traffic (Tingkat Org.) |
|---|---|---|---|
| Model Gemini Pro | Tingkat 1 | $10 - $250 | 500.000 |
| Tingkat 2 | $250 - $2000 | 1.000.000 | |
| Tingkat 3 | > $2.000 | 2.000.000 | |
| Model Gemini Flash dan Flash-Lite | Tingkat 1 | $10 - $250 | 2.000.000 |
| Tingkat 2 | $250 - $2000 | 4.000.000 | |
| Tingkat 3 | > $2.000 | 10.000.000 |
Batas throughput yang ditampilkan untuk keluarga model berlaku secara independen untuk setiap model dalam keluarga tersebut. Misalnya, pelanggan di Tingkat 3 memiliki throughput dasar 10.000.000 TPM untuk Gemini 2.5 Flash dan throughput dasar terpisah 10.000.000 TPM untuk Gemini 2.0 Flash. Penggunaan terhadap salah satu batas ini tidak memengaruhi throughput untuk model lain. Tidak ada batas permintaan per menit (RPM) terpisah untuk setiap tingkat. Namun, batas sistem 30.000 RPM per model per region berlaku. Permintaan Gemini dengan input multimodal tunduk pada batas frekuensi sistem yang sesuai, termasuk gambar, audio, video, dan dokumen.
Jika Anda memerlukan throughput yang lebih tinggi untuk kasus penggunaan perusahaan, hubungi tim akun Anda untuk mengetahui informasi selengkapnya tentang tingkat kustom.
Cara kerja tingkat penggunaan
Tingkat penggunaan Anda ditentukan secara otomatis oleh total pembelanjaan organisasi Anda untuk layanan Gemini Enterprise Agent Platform yang memenuhi syarat selama periode 30 hari yang terus berjalan. Seiring peningkatan pembelanjaan organisasi Anda, sistem akan mempromosikan Anda ke tingkat yang lebih tinggi dengan throughput yang lebih besar.
Penghitungan pembelanjaan
Penghitungan ini mencakup berbagai layanan, mulai dari prediksi pada semua rangkaian model Gemini hingga instance CPU, GPU, dan TPU Gemini Enterprise Agent Platform, serta SKU berbasis komitmen, seperti Throughput yang Disediakan.
Klik untuk mempelajari lebih lanjut SKU yang disertakan dalam penghitungan pembelanjaan.
Tabel berikut mencantumkan kategori Google Cloud SKU yang disertakan dalam penghitungan total pembelanjaan.
| Kategori | Deskripsi SKU yang disertakan |
|---|---|
| Model Gemini | Semua rangkaian model Gemini (misalnya, 2.0, 2.5, 3.0 dalam versi Pro, Flash, dan Lite) untuk prediksi di semua modalitas (Teks, Gambar, Audio, Video), termasuk variasi batch, konteks panjang, yang di-tuning, dan "berpikir" |
| Fitur Model Gemini | Semua SKU Gemini terkait untuk fitur seperti Caching, Caching Storage, dan Tingkatan Prioritas, di semua modalitas dan versi model |
| CPU Platform Agen | Prediksi Online dan Batch pada semua kelompok instance berbasis CPU (misalnya, C2, C3, E2, N1, N2, dan variannya) |
| GPU Platform Agen | Prediksi Online dan Batch di semua instance berakselerasi GPU NVIDIA (misalnya, seri A100, H100, H200, B200, L4, T4, V100, dan RTX) |
| TPU Platform Agen | Prediksi Online dan Batch di semua instance berbasis TPU (misalnya, TPU-v5e, v6e) |
| Pengelolaan & Biaya | Semua SKU "Biaya pengelolaan" yang terkait dengan berbagai instance prediksi Agent Platform |
| Throughput yang Disediakan | Semua SKU berbasis komitmen untuk Throughput yang Disediakan |
| Layanan Lainnya | Layanan khusus seperti "LLM Grounding untuk Gemini... dengan alat Google Penelusuran" |
Memverifikasi tingkat penggunaan
Untuk memverifikasi tingkat penggunaan organisasi Anda, buka Dasbor Gemini Enterprise Agent Platform di konsol Google Cloud .
Verifikasi pembelanjaan
Untuk meninjau pembelanjaan Agent Platform, buka Penagihan Cloud di konsolGoogle Cloud . Pembelanjaan digabungkan di tingkat organisasi.
Error Resource Habis (429)
Jika Anda menerima error 429: Resource Exhausted, hal ini tidak menunjukkan bahwa Anda telah mencapai kuota tetap. Hal ini menunjukkan persaingan tinggi sementara untuk resource bersama tertentu. Sebaiknya terapkan strategi coba lagi backoff eksponensial
untuk menangani error ini, karena ketersediaan di lingkungan dinamis ini dapat berubah
dengan cepat. Selain strategi coba lagi, sebaiknya gunakan endpoint
global. Tidak seperti endpoint regional (misalnya, us-central1), endpoint global secara dinamis merutekan permintaan Anda ke region dengan kapasitas paling banyak yang tersedia pada saat itu. Hal ini memungkinkan aplikasi Anda mengakses kumpulan kapasitas bersama multi-region yang lebih besar, sehingga meningkatkan potensi keberhasilan bursting secara signifikan dan mengurangi kemungkinan terjadinya error 429.
Untuk mendapatkan hasil terbaik, gabungkan penggunaan endpoint global dengan perataan traffic. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua, karena traffic yang tinggi dan instan dapat menyebabkan pembatasan, meskipun penggunaan rata-rata per menit Anda berada dalam batas Throughput Dasar. Mendistribusikan panggilan API secara lebih merata akan membantu sistem mengelola beban Anda secara terprediksi dan meningkatkan performa secara keseluruhan. Untuk informasi tambahan tentang cara menangani error Kehabisan Resource, lihat Panduan untuk menangani error 429 dan Kode error 429.
Memantau throughput dan performa
Untuk memantau penggunaan token real-time organisasi Anda, buka Metrics Explorer di Cloud Monitoring.
Untuk mengetahui informasi selengkapnya tentang pemantauan traffic endpoint model, lihat Memantau model.
Perhatikan bahwa tingkat penggunaan berlaku di tingkat organisasi. Untuk mengetahui informasi tentang menetapkan cakupan pengamatan untuk memetakan throughput di beberapa project dalam organisasi Anda, lihat Mengonfigurasi cakupan pengamatan untuk kueri multi-project.