Bayar sesuai penggunaan standar (Standard PayGo) adalah opsi penggunaan untuk memanfaatkan rangkaian model AI generatif Vertex AI, termasuk rangkaian model Gemini dan Imagen di Vertex AI. PayGo Standar memungkinkan Anda membayar hanya resource yang Anda gunakan, tanpa memerlukan komitmen keuangan di awal. Untuk memberikan performa yang lebih dapat diprediksi untuk workload yang dapat diskalakan, Standard PayGo menggabungkan sistem tingkat penggunaan. Vertex AI secara dinamis menyesuaikan kapasitas throughput dasar organisasi Anda, berdasarkan total pembelanjaan untuk layanan Vertex AI yang memenuhi syarat selama periode 30 hari yang terus berlanjut. Seiring dengan meningkatnya pembelanjaan organisasi Anda, organisasi tersebut akan otomatis dipromosikan ke tingkat yang lebih tinggi yang memberikan peningkatan akses ke sumber daya bersama dan batas performa yang lebih tinggi.
Tingkatan penggunaan dan throughput
Setiap tingkat penggunaan PayGo Standar bertujuan untuk memberikan Throughput Dasar, yang diukur dalam token per menit (TPM), yang berfungsi sebagai batas bawah performa yang dapat diprediksi untuk traffic organisasi Anda. Batas throughput didasarkan pada permintaan yang dikirim ke endpoint global. Menggunakan endpoint global adalah praktik terbaik, karena memberikan akses ke kumpulan kapasitas throughput multi-region yang lebih besar dan memungkinkan perutean permintaan Anda ke lokasi dengan ketersediaan paling tinggi untuk memaksimalkan performa.
Traffic Anda tidak dibatasi secara ketat pada batas Throughput Dasar. Vertex AI memungkinkan lonjakan traffic melampaui batas ini berdasarkan upaya terbaik. Namun, selama periode permintaan tinggi di seluruh platform Vertex AI, traffic burst berlebih ini mungkin memiliki variabilitas performa yang lebih tinggi. Untuk mengoptimalkan performa dan meminimalkan kemungkinan terjadinya error ini, sebaiknya ratakan traffic Anda secara merata mungkin di setiap menit. Hindari mengirim permintaan dalam lonjakan tingkat kedua yang tajam. Traffic yang tinggi dan instan dapat menyebabkan pembatasan meskipun penggunaan rata-rata per menit Anda berada di bawah batas. Mendistribusikan panggilan API secara lebih merata membantu sistem mengelola beban Anda secara terprediksi dan meningkatkan performa secara keseluruhan.
Paket berikut tersedia di Standard PayGo:
| Model Keluarga | Tingkat | Pembelanjaan Pelanggan (30 Hari) | TPM Traffic (Tingkat Org.) |
|---|---|---|---|
| Model Gemini Pro | Tingkat 1 | $10 - $250 | 500.000 |
| Tingkat 2 | $250 - $2000 | 1.000.000 | |
| Tingkat 3 | > $2.000 | 2.000.000 | |
| Model Gemini Flash dan Flash-Lite | Tingkat 1 | $10 - $250 | 2.000.000 |
| Tingkat 2 | $250 - $2000 | 4.000.000 | |
| Tingkat 3 | > $2.000 | 10.000.000 |
Perhatikan bahwa batas throughput yang ditampilkan untuk kelompok model berlaku secara independen untuk setiap model dalam kelompok tersebut. Misalnya, pelanggan di Tingkat 3 memiliki throughput dasar 10.000.000 TPM untuk Gemini 2.5 Flash dan throughput dasar terpisah 10.000.000 TPM untuk Gemini 2.0 Flash. Penggunaan terhadap salah satu batas ini tidak memengaruhi throughput untuk model lain. Tidak ada batas permintaan per menit (RPM) terpisah untuk setiap tingkat. Namun, batas sistem 30.000 RPM per model per region berlaku. Permintaan Gemini dengan input multimodal tunduk pada batas frekuensi sistem yang sesuai, termasuk gambar, audio, video, dan dokumen.
Jika Anda memerlukan throughput yang lebih tinggi untuk kasus penggunaan perusahaan, hubungi tim akun Anda untuk mengetahui informasi selengkapnya tentang paket khusus.
Cara kerja tingkat penggunaan
Tingkat penggunaan Anda ditentukan secara otomatis oleh total pembelanjaan organisasi Anda untuk layanan Vertex AI yang memenuhi syarat selama periode 30 hari bergulir. Seiring peningkatan pembelanjaan organisasi Anda, sistem akan mempromosikan Anda ke tingkat yang lebih tinggi dengan throughput yang lebih besar.
Penghitungan pembelanjaan
Penghitungan ini mencakup berbagai layanan, mulai dari prediksi pada semua keluarga model Gemini hingga instance CPU, GPU, dan TPU Vertex AI, serta SKU berbasis komitmen, seperti Throughput yang Disediakan.
Klik untuk mempelajari lebih lanjut SKU yang disertakan dalam penghitungan pembelanjaan.
Tabel berikut mencantumkan kategori Google Cloud SKU yang disertakan dalam penghitungan total pembelanjaan.
| Kategori | Deskripsi SKU yang disertakan |
|---|---|
| Model Gemini | Semua rangkaian model Gemini (misalnya, 2.0, 2.5, 3.0 dalam versi Pro, Flash, dan Lite) untuk prediksi di semua modalitas (Teks, Gambar, Audio, Video), termasuk variasi batch, konteks panjang, yang di-tuning, dan "penalaran" |
| Fitur Model Gemini | Semua SKU Gemini terkait untuk fitur seperti Caching, Caching Storage, dan Tingkatan Prioritas, di semua modalitas dan versi model |
| CPU Vertex AI | Prediksi Online dan Batch di semua family instance berbasis CPU (misalnya, C2, C3, E2, N1, N2, dan variasinya) |
| GPU Vertex AI | Prediksi Online dan Batch di semua instance yang diakselerasi GPU NVIDIA (misalnya, A100, H100, H200, B200, L4, T4, V100, dan seri RTX) |
| Vertex AI TPU | Prediksi Online dan Batch di semua instance berbasis TPU (misalnya, TPU-v5e, v6e) |
| Pengelolaan & Biaya | Semua SKU "Biaya pengelolaan" yang terkait dengan berbagai instance prediksi Vertex AI |
| Throughput yang Disediakan | Semua SKU berbasis komitmen untuk Throughput yang Disediakan |
| Layanan Lainnya | Layanan khusus seperti "LLM Grounding untuk Gemini... dengan alat Google Penelusuran" |
Memverifikasi tingkat penggunaan
Untuk memverifikasi tingkat penggunaan organisasi Anda, buka Dasbor Vertex AI di konsol Google Cloud .
Verifikasi pembelanjaan
Untuk meninjau pembelanjaan Vertex AI, buka Penagihan Cloud di Google Cloud konsol. Perhatikan bahwa pembelanjaan digabungkan di tingkat organisasi.
Error Resource Habis (429)
Jika Anda menerima error 429, hal ini tidak menunjukkan bahwa Anda telah mencapai kuota tetap.
Hal ini menunjukkan persaingan tinggi sementara untuk resource bersama tertentu. Sebaiknya terapkan strategi percobaan ulang mundur eksponensial untuk menangani error ini, karena ketersediaan di lingkungan dinamis ini dapat berubah dengan cepat. Selain strategi coba lagi, sebaiknya gunakan endpoint global. Tidak seperti
endpoint regional (misalnya, us-central1), endpoint global secara dinamis
merutekan permintaan Anda ke region dengan kapasitas paling tersedia pada
saat itu. Hal ini memungkinkan aplikasi Anda mengakses kumpulan kapasitas bersama multi-region yang lebih besar, sehingga meningkatkan potensi keberhasilan bursting secara signifikan dan mengurangi kemungkinan terjadinya error 429.
Untuk hasil terbaik, gabungkan penggunaan endpoint global dengan perataan traffic. Hindari mengirim permintaan dalam lonjakan tajam tingkat kedua, karena traffic yang tinggi dan instan dapat menyebabkan throttling, meskipun penggunaan rata-rata per menit Anda berada dalam batas Throughput Dasar. Mendistribusikan panggilan API secara lebih merata membantu sistem mengelola beban Anda secara terprediksi dan meningkatkan performa secara keseluruhan. Untuk mengetahui informasi tambahan tentang cara menangani error Kehabisan Resource, lihat Panduan untuk menangani error 429 dan Kode error 429.
Model yang didukung
Model Gemini berikut yang tersedia secara umum (GA) dan model penyesuaian dengan pengawasan-nya mendukung PayGo Standar dengan Tingkatan Penggunaan:
Model Gemini GA berikut dan model penyesuaian yang diawasi-nya juga mendukung PayGo Standar, tetapi tingkat penggunaan tidak berlaku untuk model ini:
Perhatikan bahwa tingkat ini tidak berlaku untuk model pratinjau. Lihat dokumentasi resmi khusus setiap model untuk mendapatkan informasi yang paling akurat dan terbaru.
Memantau throughput dan performa
Untuk memantau penggunaan token real-time organisasi Anda, buka Metrics Explorer di Cloud Monitoring.
Untuk mengetahui informasi selengkapnya tentang pemantauan traffic endpoint model, lihat Memantau model.
Perhatikan bahwa tingkat penggunaan berlaku di tingkat organisasi. Untuk mengetahui informasi tentang menetapkan cakupan pengamatan untuk memetakan throughput di beberapa project dalam organisasi Anda, lihat Mengonfigurasi cakupan pengamatan untuk kueri multi-project.
Langkah berikutnya
- Untuk mempelajari kuota dan batas Vertex AI, lihat Kuota dan batas Vertex AI.
- Untuk mempelajari lebih lanjut kuota dan batas sistem, lihat dokumentasi Cloud Quotas. Google Cloud