PayGo Standar

Standar bayar sesuai penggunaan (Standar PayGo) adalah opsi penggunaan untuk memanfaatkan rangkaian model AI generatif Agent Platform Gemini Enterprise, termasuk rangkaian model Gemini. Dengan Standar PayGo, Anda hanya membayar resource yang Anda gunakan, tanpa memerlukan komitmen keuangan di awal. Untuk memberikan performa yang lebih dapat diprediksi untuk workload yang dapat diskalakan, Standar PayGo menggabungkan sistem tingkat penggunaan. Agent Platform secara dinamis menyesuaikan kapasitas throughput dasar organisasi Anda, berdasarkan total pembelanjaannya untuk layanan Agent Platform yang memenuhi syarat selama periode 30 hari terakhir. Seiring pertumbuhan pembelanjaan organisasi Anda, organisasi tersebut secara otomatis dipromosikan ke tingkat yang lebih tinggi yang memberikan peningkatan akses ke resource bersama dan batas performa yang lebih tinggi. Untuk workload yang memerlukan performa yang lebih konsisten daripada Standar PayGo, pertimbangkan Prioritas PayGo. Untuk kapasitas khusus dan terjamin, lihat Throughput yang Disediakan.

Tingkat penggunaan dan throughput

Setiap tingkat penggunaan Standar PayGo bertujuan untuk memberikan Throughput Dasar, yang diukur dalam token per menit (TPM), yang berfungsi sebagai batas performa yang dapat diprediksi untuk traffic organisasi Anda. Batas throughput didasarkan pada permintaan yang dikirim ke endpoint global. Menggunakan endpoint global adalah praktik terbaik, karena endpoint ini memberikan akses ke kumpulan kapasitas throughput multi-region yang lebih besar dan memungkinkan perutean permintaan Anda ke lokasi dengan ketersediaan terbanyak untuk memaksimalkan performa.

Traffic Anda tidak dibatasi secara ketat pada batas Throughput Dasar. Agent Platform memungkinkan traffic melebihi batas ini berdasarkan upaya terbaik. Namun, selama periode permintaan tinggi di seluruh Agent Platform, traffic lonjakan berlebih ini mungkin memiliki variabilitas performa yang lebih tinggi. Untuk mengoptimalkan performa dan meminimalkan kemungkinan menerima error ini, sebaiknya juga ratakan traffic Anda semerata mungkin setiap menit. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua. Traffic yang tinggi dan instan dapat menyebabkan throttling meskipun penggunaan rata-rata per menit Anda berada di bawah batas. Mendistribusikan panggilan API Anda secara lebih merata akan membantu sistem mengelola beban Anda secara dapat diprediksi dan meningkatkan performa secara keseluruhan.

Tingkat berikut tersedia di Standar PayGo:

Rangkaian Model Tingkat Pembelanjaan Pelanggan (30 Hari) TPM Traffic (Tingkat Organisasi)
Model Gemini Pro Tingkat 1 $10 - $250 500.000
Tingkat 2 $250 - $2.000 1.000.000
Tingkat 3 > $2.000 2.000.000
Model Gemini Flash dan Flash-Lite Tingkat 1 $10 - $250 2.000.000
Tingkat 2 $250 - $2.000 4.000.000
Tingkat 3 > $2.000 10.000.000

Perhatikan bahwa batas throughput yang ditampilkan untuk rangkaian model berlaku secara independen untuk setiap model dalam rangkaian tersebut. Misalnya, pelanggan di Tingkat 3 memiliki throughput dasar 10.000.000 TPM untuk Gemini 2.5 Flash dan dasar terpisah 10.000.000 TPM untuk Gemini 2.0 Flash. Penggunaan terhadap salah satu batas ini tidak memengaruhi throughput untuk model lain. Tidak ada batas permintaan per menit (RPM) terpisah untuk setiap tingkat. Namun, batas sistem 30.000 RPM per model per region berlaku. Permintaan Gemini dengan input multimodal tunduk pada batas kapasitas sistem yang sesuai, termasuk gambar, audio, video, dan dokumen.

Jika Anda memerlukan throughput yang lebih tinggi untuk kasus penggunaan perusahaan, hubungi tim akun Anda untuk mengetahui informasi selengkapnya tentang tingkat kustom.

Cara kerja tingkat penggunaan

Tingkat penggunaan Anda ditentukan secara otomatis oleh total pengeluaran organisasi Anda untuk layanan Agent Platform yang memenuhi syarat selama periode 30 hari terakhir. Seiring peningkatan pengeluaran organisasi Anda, sistem akan mempromosikan Anda ke tingkat yang lebih tinggi dengan throughput yang lebih besar.

Perhitungan pengeluaran

Perhitungan ini mencakup berbagai layanan, mulai dari prediksi pada semua rangkaian model Gemini hingga instance CPU, GPU, dan TPU Agent Platform, serta SKU berbasis komitmen, seperti Throughput yang Disediakan.

Klik untuk mempelajari lebih lanjut SKU yang disertakan dalam perhitungan pembelanjaan.

Tabel berikut mencantumkan kategori Google Cloud SKU yang disertakan dalam perhitungan total pembelanjaan.

Kategori Deskripsi SKU yang disertakan
Model Gemini Semua rangkaian model Gemini (mis., 2.0, 2.5, 3.0 dalam versi Pro, Flash, dan Lite) untuk prediksi di semua modalitas (Teks, Gambar, Audio, Video), termasuk variasi batch, konteks panjang, yang disesuaikan, dan "berpikir"
Fitur Model Gemini Semua SKU Gemini terkait untuk fitur seperti Caching, Penyimpanan Caching, dan Tingkat Prioritas, di semua modalitas dan versi model
CPU Agent Platform Prediksi Online dan Batch pada semua rangkaian instance berbasis CPU (mis., C2, C3, E2, N1, N2, dan variannya)
GPU Agent Platform Prediksi Online dan Batch pada semua instance yang dipercepat GPU NVIDIA (mis., A100, H100, H200, B200, L4, T4, V100, dan seri RTX)
TPU Agent Platform Prediksi Online dan Batch pada semua instance berbasis TPU (mis., TPU-v5e, v6e)
Pengelolaan &Biaya Semua SKU "Biaya pengelolaan" yang terkait dengan berbagai instance prediksi Agent Platform
Throughput yang Disediakan Semua SKU berbasis komitmen untuk Throughput yang Disediakan
Layanan Lainnya Layanan khusus seperti "LLM Grounding for Gemini... with Google Search tool"

Memverifikasi tingkat penggunaan

Untuk memverifikasi tingkat penggunaan organisasi Anda, buka Dasbor Agent Platform di Google Cloud konsol. Untuk melihat tingkat penggunaan di dasbor, Anda memerlukan peran Agent Platform Viewer (roles/aiplatform.viewer) di project dan peran Billing Account Viewer (roles/billing.viewer) di akun penagihan.

Buka Dasbor Agent Platform

Verifikasi pembelanjaan

Untuk meninjau pengeluaran Agent Platform Anda, buka Penagihan Cloud di Google Cloud konsol. Perhatikan bahwa pembelanjaan diagregasi di tingkat organisasi.

Buka Penagihan Cloud

Error Resource Habis (429)

Jika Anda menerima error 429, hal ini tidak menunjukkan bahwa Anda telah mencapai kuota tetap. Hal ini menunjukkan pertentangan tinggi sementara untuk resource bersama tertentu. Sebaiknya terapkan strategi coba lagi backoff eksponensial untuk menangani error ini, karena ketersediaan di lingkungan dinamis ini dapat berubah dengan cepat. Selain strategi coba lagi, sebaiknya gunakan endpoint global. Tidak seperti endpoint regional (misalnya, us-central1), endpoint global secara dinamis merutekan permintaan Anda ke region dengan kapasitas terbanyak yang tersedia pada saat itu. Hal ini memungkinkan aplikasi Anda mengakses kumpulan kapasitas bersama multi-region yang lebih besar, sehingga meningkatkan potensi lonjakan yang berhasil secara signifikan dan mengurangi kemungkinan error 429.

Untuk hasil terbaik, gabungkan penggunaan endpoint global dengan perataan traffic. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua, karena traffic yang tinggi dan instan dapat menyebabkan throttling, meskipun penggunaan rata-rata per menit Anda berada dalam batas Throughput Dasar. Mendistribusikan panggilan API Anda secara lebih merata akan membantu sistem mengelola beban Anda secara dapat diprediksi dan meningkatkan performa secara keseluruhan. Untuk mengetahui informasi tambahan tentang cara menangani error Resource Habis, lihat Membuat Aplikasi LLM yang Tangguh dan Mengurangi Error 429 dan Kode error 429.

Model yang didukung

Model Gemini yang tersedia secara umum (GA) berikut dan model yang disesuaikan dengan pengawasan mendukung Standar PayGo dengan Tingkat Penggunaan:

Klik untuk meluaskan model yang didukung

Model Gemini GA berikut dan model yang disesuaikan dengan pengawasan juga mendukung Standar PayGo, tetapi tingkat penggunaan tidak berlaku untuk model ini:

Perhatikan bahwa tingkat ini tidak berlaku untuk model pratinjau. Lihat dokumentasi resmi khusus setiap model untuk mendapatkan informasi yang paling akurat dan terbaru.

Memantau throughput dan performa

Untuk memantau penggunaan token real-time organisasi Anda, buka Metrics Explorer di Cloud Monitoring.

Buka Metrics Explorer

Untuk mengetahui informasi selengkapnya tentang pemantauan traffic endpoint model, lihat Memantau model.

Perhatikan bahwa tingkat penggunaan berlaku di tingkat organisasi. Untuk mengetahui informasi tentang cara menetapkan cakupan observabilitas untuk membuat grafik throughput di beberapa project dalam organisasi Anda, lihat Mengonfigurasi cakupan observabilitas untuk kueri multi-project.

Langkah berikutnya

Resource

Kuota dan batas yang terkait dengan Agent Platform, tidak termasuk batasan khusus produk.

Ringkasan

Pelajari cara Google Cloud membatasi jumlah resource yang dapat digunakan project Google Cloud Anda, dan cara kuota berlaku untuk berbagai jenis resource, termasuk komponen hardware, software, dan jaringan.