Model yang didukung

Tabel berikut menunjukkan model yang mendukung Throughput yang Disediakan, throughput untuk setiap unit penskalaan AI generatif (GSU) dan rasio penyusutan untuk setiap model.

Model Google

Throughput yang Disediakan hanya mendukung model yang Anda panggil langsung dari project menggunakan ID model tertentu, bukan alias model. Untuk menggunakan Throughput yang Disediakan guna melakukan panggilan API ke model, Anda harus menggunakan ID versi model tertentu (misalnya, gemini-2.0-flash-001) dan bukan alias versi model.

Selain itu, Throughput yang Disediakan tidak mendukung model yang dipanggil oleh produk Vertex AI lainnya, seperti Agen Vertex AI dan Vertex AI Search. Misalnya, jika Anda membuat panggilan API ke Gemini 2.0 Flash saat menggunakan Vertex AI Search, pesanan Throughput yang Disediakan untuk Gemini 2.0 Flash tidak akan menjamin panggilan yang dilakukan oleh Vertex AI Search.

Throughput yang Disediakan tidak mendukung panggilan prediksi batch.

Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penyusutan untuk model Google yang mendukung Throughput yang Disediakan. Throughput per detik Anda ditentukan sebagai input perintah dan output yang dihasilkan di semua permintaan per detik.

Untuk mengetahui jumlah token yang diperlukan beban kerja Anda, lihat tokenizer SDK atau countTokens API.

Model Throughput per detik per GSU Unit Penambahan pembelian GSU minimum Rasio penyelesaian

Gemini 3 Pro

Versi terbaru yang didukung: gemini-3-pro-preview (pratinjau)

500 Token 1 Kurang dari atau sama dengan 200.000 token input:
1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 1 token
1 token teks respons output = 6 token
1 token teks penalaran output = 6 token

Lebih dari 200.000 token input:
1 token teks input = 2 token
1 token gambar input = 2 token
1 token video input = 2 token
1 token audio input = 2 token
1 token teks respons output = 9 token
1 token teks penalaran output = 9 token

Gambar Gemini 3 Pro

Versi terbaru yang didukung: gemini-3-pro-image-preview (pratinjau)

500 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token teks output = 6 token
1 token pemikiran output = 6 token
1 token gambar output = 60 token

Gemini 2.5 Pro

Versi terbaru yang didukung: gemini-2.5-pro

650 Token 1 Kurang dari atau sama dengan 200.000 token input:
1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 1 token
1 token teks respons output = 8 token
1 token teks penalaran output = 8 token

Lebih dari 200.000 token input:
1 token teks input = 2 token
1 token gambar input = 2 token
1 token video input = 2 token
1 token audio input = 2 token
1 token teks respons output = 12 token
1 token teks penalaran output = 12 token

Gambar Gemini 2.5 Flash

Versi terbaru yang didukung: gemini-2.5-flash-image

2.690 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token teks output = 9 token
1 token gambar output = 100 token

Gemini 2.5 Flash

Versi terbaru yang didukung (GA): gemini-2.5-flash

Versi terbaru yang didukung (pratinjau): gemini-2.5-flash-preview-09-2025

2690 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 4 token
1 token teks respons output = 9 token
1 token teks alasan output = 9 token

Gemini 2.5 Flash-Lite

Versi terbaru yang didukung (GA): gemini-2.5-flash-lite

Versi terbaru yang didukung (pratinjau): gemini-2.5-flash-lite-preview-09-2025

8.070 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 3 token
1 token teks respons output = 4 token
1 token teks alasan output = 4 token

Gemini 2.5 Flash dengan Live API

Versi terbaru yang didukung: gemini-live-2.5-flash

1.620 Token 1 1 token teks input = 1 token teks input
1 token audio input = 6 token teks input
1 token video input = 6 token teks input
1 token memori sesi input = 1 token teks input
1 token teks output = 4 token teks input
1 token audio output = 24 token teks input

Gemini 2.5 Flash dengan audio bawaan Live API

Versi terbaru yang didukung: gemini-live-2.5-flash-preview-native-audio-09-2025 (pratinjau)

1.620 Token 1 1 token teks input = 1 token
1 token audio input = 6 token
1 token video input = 6 token
1 token gambar input = 6 token
1 token memori sesi input = 1 token
1 token teks output = 4 token
1 token audio output = 24 token

Gemini 2.0 Flash

Versi terbaru yang didukung: gemini-2.0-flash-001

3.360 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 7 token
1 token teks output = 4 token

Gemini 2.0 Flash-Lite

Versi terbaru yang didukung: gemini-2.0-flash-lite-001

6.720 Token 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token video input = 1 token
1 token audio input = 1 token
1 token teks output = 4 token

Pratinjau Veo 3.1

Versi terbaru yang didukung: veo-3.1-generate-001 (pratinjau)

0,0040 Detik video 1 1 detik video output = 1 detik video output
Video+audio detik 1 1 detik video+audio output = 2 detik video output

Pratinjau Veo 3.1 Fast

Versi terbaru yang didukung: veo-3.1-fast-generate-001 (pratinjau)

0,0080 Detik video 1 1 detik video output = 1 detik video output
Video+audio detik 1 1 detik video+audio output = 1,45 detik video output

Veo 3

Versi terbaru yang didukung: veo-3.0-generate-001

0,0040 Detik video 1 1 detik video output = 1 detik video output
Video+audio detik 1 1 detik video+audio output = 2 detik video output

Veo 3 Fast

Versi terbaru yang didukung: veo-3.0-fast-generate-001

0,0080 Detik video 1 1 detik video output = 1 detik video output
Video+audio detik 1 1 detik video+audio output = 1,45 detik video output

Pembuatan Imagen 4 Ultra

imagen-4.0-ultra-generate-001

0,015 Gambar 1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.

Imagen 4 Generate

imagen-4.0-generate-001

0,02 Gambar 1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.

Pembuatan Cepat dengan Imagen 4

imagen-4.0-fast-generate-001

0,04 Gambar 1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.

Imagen 3 Generate 002

imagen-3.0-generate-002

0,02 Gambar 1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.

Imagen 3 Generate 001

imagen-3.0-generate-001

0,025 Gambar 1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 3 Fast 0,05 Gambar 1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.

Untuk mengetahui informasi tentang kemampuan dan batas input atau output model, lihat dokumentasi model.

Anda dapat mengupgrade ke model baru saat tersedia. Untuk mengetahui informasi tentang ketersediaan model dan tanggal penghentian, lihat Model Google.

Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.

Model partner

Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penurunan untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang ditentukan sebagai total token input dan output di semua permintaan per detik.

Model Throughput per GSU (token/dtk) Pembelian GSU minimum Peningkatan pembelian GSU Rasio penyelesaian
Claude Opus 4.5 dari Anthropic 210 35 1 1 token input = 1 token
1 token output = 5 token
1 token tulis cache 5m = 1,25 token
1 token tulis cache 1 jam = 2 token
1 token hit cache = 0,1 token
Claude Sonnet 4.5 dari Anthropic 350 25 1 Kurang dari 200.000 token input:
1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token penulisan cache 1 jam = 2 token
1 token hit cache = 0,1 token

Lebih besar dari atau sama dengan 200.000 token input:
1 token input = 2 token
1 token output = 7,5 token
1 token penulisan cache 5m = 2,5 token
1 token penulisan cache 1 jam = 4 token
1 token hit cache = 0,2 token
Claude Opus 4.1 dari Anthropic 70 35 1 1 token input = 1 token
1 token output = 5 token
1 token tulis cache 5m = 1,25 token
1 token tulis cache 1 jam = 2 token
1 token hit cache = 0,1 token
Claude Haiku 4.5 dari Anthropic 1.050 8 1 Kurang dari 200.000 token input:
1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token penulisan cache 1 jam = 2 token
1 token hit cache = 0,1 token
Claude Opus 4 dari Anthropic 70 35 1 1 token input = 1 token
1 token output = 5 token
1 token tulis cache 5m = 1,25 token
1 token tulis cache 1 jam = 2 token
1 token hit cache = 0,1 token
Claude Sonnet 4 dari Anthropic 350 25 1 Kurang dari 200.000 token input:
1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token penulisan cache 1 jam = 2 token
1 token hit cache = 0,1 token

Lebih besar dari atau sama dengan 200.000 token input:
1 token input = 2 token
1 token output = 7,5 token
1 token penulisan cache 5m = 2,5 token
1 token penulisan cache 1 jam = 4 token
1 token hit cache = 0,2 token
Claude 3.7 Sonnet dari Anthropic (tidak digunakan lagi) 350 25 1 1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token hit cache = 0,1 token
Claude 3.5 Sonnet v2 dari Anthropic (tidak digunakan lagi) 350 25 1 1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token hit cache = 0,1 token
Claude 3.5 Haiku dari Anthropic 2.000 10 1 1 token input = 1 token
1 token output = 5 token
1 token tulis cache 5m = 1,25 token
1 token tulis cache 1 jam = 2 token
1 token hit cache = 0,1 token
Claude 3 Opus dari Anthropic 70 35 1 1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token hit cache = 0,1 token
Claude 3 Haiku dari Anthropic 4.200 5 1 1 token input = 1 token
1 token output = 5 token
1 token tulis cache 5m = 1,25 token
1 token tulis cache 1 jam = 2 token
1 token hit cache = 0,1 token
Claude 3.5 Sonnet dari Anthropic (tidak digunakan lagi) 350 25 1 1 token input = 1 token
1 token output = 5 token
1 token penulisan cache 5m = 1,25 token
1 token hit cache = 0,1 token

Untuk mengetahui informasi tentang lokasi yang didukung, lihat Ketersediaan region Anthropic Claude. Untuk memesan Throughput yang Disediakan untuk model Anthropic, hubungi Google Cloud perwakilan akun Anda.

Model terbuka

Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penurunan untuk model terbuka yang mendukung Throughput yang Disediakan.

Model Throughput per GSU (token/dtk) Pembelian GSU minimum Peningkatan pembelian GSU Rasio penyelesaian

DeepSeek-OCR

Versi terbaru yang didukung: deepseek-ocr-maas

3.360 1 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token teks output = 4 token

Kimi K2 Thinking

Versi terbaru yang didukung: kimi-k2-thinking-maas

1.680 1 1 1 token teks input = 1 token
1 token teks output = 4 token

Llama 3.3 70B

Versi terbaru yang didukung: llama-3.3-70b-instruct-maas

1.400 1 1 1 token teks input = 1 token
1 token teks output = 1 token

Llama 4 Maverick 17B-128E

Versi terbaru yang didukung: llama-4-maverick-17b-128e-instruct-maas

2.800 1 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token teks output = 4 token

Llama 4 Scout 17B-16E

Versi terbaru yang didukung: llama-4-scout-17b-16e-instruct-maas

4.035 1 1 1 token teks input = 1 token
1 token gambar input = 1 token
1 token teks output = 3 token

MiniMax M2

Versi terbaru yang didukung: minimax-m2-maas

3.360 1 1 1 token teks input = 1 token
1 token teks output = 4 token

OpenAI gpt-oss 120B

Versi terbaru yang didukung: gpt-oss-120b-maas

11.205 1 1 1 token teks input = 1 token
1 token teks output = 4 token

gpt-oss 20B OpenAI

Versi terbaru yang didukung: gpt-oss-20b-maas

14.405 1 1 1 token teks input = 1 token
1 token teks output = 4 token

Qwen3 235B

Versi terbaru yang didukung: qwen3-235b-a22b-instruct-2507-maas

4.035 1 1 1 token teks input = 1 token
1 token teks output = 4 token

Qwen3 Coder

Versi terbaru yang didukung: qwen3-coder-480b-a35b-instruct-maas

1.010 1 1 1 token teks input = 1 token
1 token teks output = 4 token

Qwen3-Next-80B Instruct

Versi terbaru yang didukung: qwen3-next-80b-a3b-instruct-maas

6.725 1 1 1 token teks input = 1 token
1 token teks output = 8 token

Qwen3-Next-80B Thinking

Versi terbaru yang didukung: qwen3-next-80b-a3b-thinking-maas

6.725 1 1 1 token teks input = 1 token
1 token teks output = 8 token

Kemampuan yang tersedia untuk model Google dan model terbuka

Tabel berikut mencantumkan kemampuan yang tersedia dengan Throughput yang Disediakan untuk model Google dan model terbuka:

Kemampuan Model Google Model terbuka (pratinjau)
Memesan melalui konsol Google Cloud Ya Ya
Mendukung endpoint global Lihat Dukungan model endpoint global. Lihat Dukungan model endpoint global.
Mendukung model yang disesuaikan dengan pengawasan Ya Tidak
Mendukung penggunaan kunci API Ya Tidak
Terintegrasi dengan context caching implisit Ya Tidak berlaku
Terintegrasi dengan penyimpanan cache konteks eksplisit Ya Tidak berlaku
Pemrosesan ML Tersedia di wilayah tertentu. Untuk mengetahui detailnya, lihat Throughput yang Disediakan Zona Tunggal. Tidak berlaku
Persyaratan pesanan yang tersedia 1 minggu, 1 bulan, 3 bulan, dan 1 tahun 1 bulan, 3 bulan, dan 1 tahun
Mengubah urutan dari konsol Ya Tidak
Status pesanan: menunggu peninjauan, disetujui, aktif, tidak berlaku Ya Ya
Penggunaan berlebih meluas ke model bayar sesuai penggunaan secara default Ya Ya
Kontrol header API: gunakan "dedicated" hanya untuk menggunakan throughput yang disediakan atau "shared" hanya untuk menggunakan bayar sesuai penggunaan Ya Ya
Monitoring: metrik, dasbor, dan pemberitahuan Ya Ya

Dukungan model endpoint global

Throughput yang Disediakan mendukung endpoint global untuk model Google dan model terbuka.

Traffic yang melebihi kuota Throughput yang Disediakan menggunakan endpoint global secara default.

Untuk menetapkan Throughput yang Disediakan ke endpoint global model, pilih global sebagai region saat Anda melakukan pemesanan Throughput yang Disediakan.

Model Google dengan dukungan endpoint global

Tabel berikut mencantumkan model Google yang mendukung endpoint global untuk Throughput yang Disediakan:

Model Versi model terbaru yang didukung
Gemini 3 Pro (pratinjau) gemini-3-pro-preview
Gambar Gemini 3 Pro (pratinjau) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gambar Gemini 2.5 Flash gemini-2.5-flash-image
Gemini 2.5 Flash
  • gemini-2.5-flash-preview-09-2025  (pratinjau)
  • gemini-2.5-flash  (GA)
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025  (pratinjau)
  • gemini-2.5-flash-lite  (GA)
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

Model terbuka dengan dukungan endpoint global

Tabel berikut mencantumkan model terbuka yang mendukung endpoint global untuk Throughput yang Disediakan:

Model Versi model terbaru yang didukung
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Berpikir qwen3-next-80b-a3b-thinking-maas

Dukungan model yang disesuaikan dengan pengawasan

Berikut ini didukung untuk model Google yang mendukung penyesuaian terawasi:

  • Throughput yang Disediakan dapat diterapkan ke model dasar dan versi yang disesuaikan dengan penyeliaan dari model dasar tersebut.

  • Endpoint model yang disesuaikan secara diawasi dan jumlah model dasarnya yang sesuai dihitung dalam kuota Throughput yang Disediakan yang sama.

    Misalnya, Throughput yang Disediakan yang dibeli untuk gemini-2.0-flash-lite-001 untuk project tertentu membuat permintaan yang dibuat dari versi gemini-2.0-flash-lite-001 yang di-fine-tune secara diawasi yang dibuat dalam project tersebut menjadi prioritas. Gunakan header yang sesuai untuk mengontrol perilaku traffic.

Langkah berikutnya