Model Google
Throughput yang Disediakan hanya mendukung model yang Anda panggil langsung
dari project menggunakan ID model tertentu, bukan alias model. Untuk menggunakan
Throughput yang Disediakan guna melakukan panggilan API ke model, Anda harus menggunakan
ID versi model tertentu (misalnya, gemini-2.0-flash-001) dan bukan
alias versi model.
Selain itu, Throughput yang Disediakan tidak mendukung model yang dipanggil oleh produk Vertex AI lainnya, seperti Agen Vertex AI dan Vertex AI Search. Misalnya, jika Anda membuat panggilan API ke Gemini 2.0 Flash saat menggunakan Vertex AI Search, pesanan Throughput yang Disediakan untuk Gemini 2.0 Flash tidak akan menjamin panggilan yang dilakukan oleh Vertex AI Search.
Throughput yang Disediakan tidak mendukung panggilan prediksi batch.
Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penyusutan untuk model Google yang mendukung Throughput yang Disediakan. Throughput per detik Anda ditentukan sebagai input perintah dan output yang dihasilkan di semua permintaan per detik.
Untuk mengetahui jumlah token yang diperlukan beban kerja Anda, lihat tokenizer SDK atau countTokens API.
| Model | Throughput per detik per GSU | Unit | Penambahan pembelian GSU minimum | Rasio penyelesaian |
|---|---|---|---|---|
|
Versi terbaru yang didukung: |
500 | Token | 1 |
Kurang dari atau sama dengan 200.000 token input: 1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 1 token 1 token teks respons output = 6 token 1 token teks penalaran output = 6 token Lebih dari 200.000 token input: 1 token teks input = 2 token 1 token gambar input = 2 token 1 token video input = 2 token 1 token audio input = 2 token 1 token teks respons output = 9 token 1 token teks penalaran output = 9 token |
|
Versi terbaru yang didukung: |
500 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token teks output = 6 token 1 token pemikiran output = 6 token 1 token gambar output = 60 token |
|
Versi terbaru yang didukung: |
650 | Token | 1 |
Kurang dari atau sama dengan 200.000 token input: 1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 1 token 1 token teks respons output = 8 token 1 token teks penalaran output = 8 token Lebih dari 200.000 token input: 1 token teks input = 2 token 1 token gambar input = 2 token 1 token video input = 2 token 1 token audio input = 2 token 1 token teks respons output = 12 token 1 token teks penalaran output = 12 token |
|
Versi terbaru yang didukung: |
2.690 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token teks output = 9 token 1 token gambar output = 100 token |
|
Versi terbaru yang didukung (GA): Versi terbaru yang didukung (pratinjau): |
2690 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 4 token 1 token teks respons output = 9 token 1 token teks alasan output = 9 token |
|
Versi terbaru yang didukung (GA): Versi terbaru yang didukung (pratinjau): |
8.070 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 3 token 1 token teks respons output = 4 token 1 token teks alasan output = 4 token |
Gemini 2.5 Flash dengan Live API Versi terbaru yang didukung: |
1.620 | Token | 1 | 1 token teks input = 1 token teks input 1 token audio input = 6 token teks input 1 token video input = 6 token teks input 1 token memori sesi input = 1 token teks input 1 token teks output = 4 token teks input 1 token audio output = 24 token teks input |
|
Gemini 2.5 Flash dengan audio bawaan Live API Versi terbaru yang didukung: |
1.620 | Token | 1 |
1 token teks input = 1 token 1 token audio input = 6 token 1 token video input = 6 token 1 token gambar input = 6 token 1 token memori sesi input = 1 token 1 token teks output = 4 token 1 token audio output = 24 token |
|
Versi terbaru yang didukung: |
3.360 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 7 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
6.720 | Token | 1 |
1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 1 token 1 token teks output = 4 token |
Versi terbaru yang didukung: |
0,0040 | Detik video | 1 | 1 detik video output = 1 detik video output |
| Video+audio detik | 1 | 1 detik video+audio output = 2 detik video output | ||
Versi terbaru yang didukung: |
0,0080 | Detik video | 1 | 1 detik video output = 1 detik video output |
| Video+audio detik | 1 | 1 detik video+audio output = 1,45 detik video output | ||
Versi terbaru yang didukung: |
0,0040 | Detik video | 1 | 1 detik video output = 1 detik video output |
| Video+audio detik | 1 | 1 detik video+audio output = 2 detik video output | ||
Versi terbaru yang didukung: |
0,0080 | Detik video | 1 | 1 detik video output = 1 detik video output |
| Video+audio detik | 1 | 1 detik video+audio output = 1,45 detik video output | ||
|
|
0,015 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
|
|
0,02 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
Pembuatan Cepat dengan Imagen 4
|
0,04 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
|
|
0,02 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
|
|
0,025 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
| Imagen 3 Fast | 0,05 | Gambar | 1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. |
Untuk mengetahui informasi tentang kemampuan dan batas input atau output model, lihat dokumentasi model.
Anda dapat mengupgrade ke model baru saat tersedia. Untuk mengetahui informasi tentang ketersediaan model dan tanggal penghentian, lihat Model Google.
Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.
Model partner
Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penurunan untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang ditentukan sebagai total token input dan output di semua permintaan per detik.
| Model | Throughput per GSU (token/dtk) | Pembelian GSU minimum | Peningkatan pembelian GSU | Rasio penyelesaian |
|---|---|---|---|---|
| Claude Opus 4.5 dari Anthropic | 210 | 35 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token tulis cache 5m = 1,25 token 1 token tulis cache 1 jam = 2 token 1 token hit cache = 0,1 token |
| Claude Sonnet 4.5 dari Anthropic | 350 | 25 | 1 | Kurang dari 200.000 token input: 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token penulisan cache 1 jam = 2 token 1 token hit cache = 0,1 token Lebih besar dari atau sama dengan 200.000 token input: 1 token input = 2 token 1 token output = 7,5 token 1 token penulisan cache 5m = 2,5 token 1 token penulisan cache 1 jam = 4 token 1 token hit cache = 0,2 token |
| Claude Opus 4.1 dari Anthropic | 70 | 35 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token tulis cache 5m = 1,25 token 1 token tulis cache 1 jam = 2 token 1 token hit cache = 0,1 token |
| Claude Haiku 4.5 dari Anthropic | 1.050 | 8 | 1 | Kurang dari 200.000 token input: 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token penulisan cache 1 jam = 2 token 1 token hit cache = 0,1 token |
| Claude Opus 4 dari Anthropic | 70 | 35 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token tulis cache 5m = 1,25 token 1 token tulis cache 1 jam = 2 token 1 token hit cache = 0,1 token |
| Claude Sonnet 4 dari Anthropic | 350 | 25 | 1 | Kurang dari 200.000 token input: 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token penulisan cache 1 jam = 2 token 1 token hit cache = 0,1 token Lebih besar dari atau sama dengan 200.000 token input: 1 token input = 2 token 1 token output = 7,5 token 1 token penulisan cache 5m = 2,5 token 1 token penulisan cache 1 jam = 4 token 1 token hit cache = 0,2 token |
| Claude 3.7 Sonnet dari Anthropic (tidak digunakan lagi) | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token hit cache = 0,1 token |
| Claude 3.5 Sonnet v2 dari Anthropic (tidak digunakan lagi) | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token hit cache = 0,1 token |
| Claude 3.5 Haiku dari Anthropic | 2.000 | 10 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token tulis cache 5m = 1,25 token 1 token tulis cache 1 jam = 2 token 1 token hit cache = 0,1 token |
| Claude 3 Opus dari Anthropic | 70 | 35 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token hit cache = 0,1 token |
| Claude 3 Haiku dari Anthropic | 4.200 | 5 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token tulis cache 5m = 1,25 token 1 token tulis cache 1 jam = 2 token 1 token hit cache = 0,1 token |
| Claude 3.5 Sonnet dari Anthropic (tidak digunakan lagi) | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache 5m = 1,25 token 1 token hit cache = 0,1 token |
Untuk mengetahui informasi tentang lokasi yang didukung, lihat Ketersediaan region Anthropic Claude. Untuk memesan Throughput yang Disediakan untuk model Anthropic, hubungi Google Cloud perwakilan akun Anda.
Model terbuka
Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penurunan untuk model terbuka yang mendukung Throughput yang Disediakan.
| Model | Throughput per GSU (token/dtk) | Pembelian GSU minimum | Peningkatan pembelian GSU | Rasio penyelesaian |
|---|---|---|---|---|
|
Versi terbaru yang didukung: |
3.360 | 1 | 1 | 1 token teks input = 1 token 1 token gambar input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
1.680 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
1.400 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 1 token |
|
Versi terbaru yang didukung: |
2.800 | 1 | 1 | 1 token teks input = 1 token 1 token gambar input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
4.035 | 1 | 1 | 1 token teks input = 1 token 1 token gambar input = 1 token 1 token teks output = 3 token |
|
Versi terbaru yang didukung: |
3.360 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
11.205 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
14.405 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
4.035 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
1.010 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 4 token |
|
Versi terbaru yang didukung: |
6.725 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 8 token |
|
Versi terbaru yang didukung: |
6.725 | 1 | 1 | 1 token teks input = 1 token 1 token teks output = 8 token |
Kemampuan yang tersedia untuk model Google dan model terbuka
Tabel berikut mencantumkan kemampuan yang tersedia dengan Throughput yang Disediakan untuk model Google dan model terbuka:
| Kemampuan | Model Google | Model terbuka (pratinjau) |
|---|---|---|
| Memesan melalui konsol Google Cloud | Ya | Ya |
| Mendukung endpoint global | Lihat Dukungan model endpoint global. | Lihat Dukungan model endpoint global. |
| Mendukung model yang disesuaikan dengan pengawasan | Ya | Tidak |
| Mendukung penggunaan kunci API | Ya | Tidak |
| Terintegrasi dengan context caching implisit | Ya | Tidak berlaku |
| Terintegrasi dengan penyimpanan cache konteks eksplisit | Ya | Tidak berlaku |
| Pemrosesan ML | Tersedia di wilayah tertentu. Untuk mengetahui detailnya, lihat Throughput yang Disediakan Zona Tunggal. | Tidak berlaku |
| Persyaratan pesanan yang tersedia | 1 minggu, 1 bulan, 3 bulan, dan 1 tahun | 1 bulan, 3 bulan, dan 1 tahun |
| Mengubah urutan dari konsol | Ya | Tidak |
| Status pesanan: menunggu peninjauan, disetujui, aktif, tidak berlaku | Ya | Ya |
| Penggunaan berlebih meluas ke model bayar sesuai penggunaan secara default | Ya | Ya |
| Kontrol header API: gunakan "dedicated" hanya untuk menggunakan throughput yang disediakan atau "shared" hanya untuk menggunakan bayar sesuai penggunaan | Ya | Ya |
| Monitoring: metrik, dasbor, dan pemberitahuan | Ya | Ya |
Dukungan model endpoint global
Throughput yang Disediakan mendukung endpoint global untuk model Google dan model terbuka.
Traffic yang melebihi kuota Throughput yang Disediakan menggunakan endpoint global secara default.
Untuk menetapkan Throughput yang Disediakan ke endpoint global model,
pilih global sebagai region saat Anda melakukan pemesanan Throughput yang Disediakan.
Model Google dengan dukungan endpoint global
Tabel berikut mencantumkan model Google yang mendukung endpoint global untuk Throughput yang Disediakan:
| Model | Versi model terbaru yang didukung |
|---|---|
| Gemini 3 Pro (pratinjau) | gemini-3-pro-preview |
| Gambar Gemini 3 Pro (pratinjau) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gambar Gemini 2.5 Flash | gemini-2.5-flash-image |
| Gemini 2.5 Flash | |
| Gemini 2.5 Flash-Lite | |
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
Model terbuka dengan dukungan endpoint global
Tabel berikut mencantumkan model terbuka yang mendukung endpoint global untuk Throughput yang Disediakan:
| Model | Versi model terbaru yang didukung |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Berpikir | qwen3-next-80b-a3b-thinking-maas |
Dukungan model yang disesuaikan dengan pengawasan
Berikut ini didukung untuk model Google yang mendukung penyesuaian terawasi:
Throughput yang Disediakan dapat diterapkan ke model dasar dan versi yang disesuaikan dengan penyeliaan dari model dasar tersebut.
Endpoint model yang disesuaikan secara diawasi dan jumlah model dasarnya yang sesuai dihitung dalam kuota Throughput yang Disediakan yang sama.
Misalnya, Throughput yang Disediakan yang dibeli untuk
gemini-2.0-flash-lite-001untuk project tertentu membuat permintaan yang dibuat dari versigemini-2.0-flash-lite-001yang di-fine-tune secara diawasi yang dibuat dalam project tersebut menjadi prioritas. Gunakan header yang sesuai untuk mengontrol perilaku traffic.