Bayar sesuai penggunaan prioritas (Priority PayGo) adalah opsi penggunaan yang memberikan performa yang lebih konsisten daripada Standard PayGo tanpa komitmen di muka dari Throughput yang Disediakan.
Saat menggunakan Priority PayGo, Anda akan ditagih per penggunaan token dengan tarif yang lebih tinggi daripada Standard PayGo. Untuk mengetahui informasi tentang harga, lihat halaman harga Vertex AI.
Kapan harus menggunakan Priority PayGo
Priority PayGo ideal untuk beban kerja yang sensitif terhadap latensi dan penting dengan pola traffic yang berfluktuasi atau tidak dapat diprediksi. Berikut adalah contoh kasus penggunaan:
Asisten virtual yang dapat dilihat pelanggan
Pemrosesan dokumen dan data yang sensitif terhadap latensi
Alur kerja agentic dan interaksi antar-agen
Simulasi penelitian
Model dan lokasi yang didukung
Model berikut mendukung Priority PayGo di endpoint global
saja. PayGo Prioritas tidak mendukung endpoint regional atau multi-regional.
Menggunakan Priority PayGo
Untuk mengirim permintaan ke Gemini API di Vertex AI menggunakan Priority PayGo,
Anda harus menyertakan header X-Vertex-AI-LLM-Shared-Request-Type dalam
permintaan Anda. Anda dapat menggunakan Priority PayGo dengan dua cara:
Gunakan kuota Throughput yang Disediakan (jika tersedia) dan alihkan ke Priority PayGo.
Hanya gunakan Priority PayGo.
Gunakan Priority PayGo saat menggunakan Throughput yang Disediakan sebagai default
Untuk memanfaatkan kuota Throughput yang Disediakan yang tersedia sebelum menggunakan
PayGo Prioritas, sertakan header
X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam
contoh berikut.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Lakukan inisialisasi klien GenAI Anda untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
PROJECT_ID: Project ID Anda.MODEL_ID: ID model yang ingin Anda gunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung PayGo Prioritas, lihat Versi model.PROMPT_TEXT: Petunjuk teks yang akan disertakan dalam perintah. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Anda akan menerima respons JSON yang mirip dengan berikut ini.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Gunakan metode
generateContentuntuk meminta agar respons ditampilkan setelah dibuat sepenuhnya. Untuk mengurangi persepsi latensi bagi audiens manusia, streaming respons saat respons dibuat menggunakan metodestreamGenerateContent. - ID model multimodal terletak di akhir URL sebelum metode
(misalnya,
gemini-2.0-flash). Contoh ini mungkin mendukung model lain juga.
Hanya gunakan Priority PayGo
Untuk hanya menggunakan Priority PayGo, sertakan header
X-Vertex-AI-LLM-Request-Type: shared dan
X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam
contoh berikut.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Lakukan inisialisasi klien GenAI Anda untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Request-Type": "shared", "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
PROJECT_ID: Project ID Anda.MODEL_ID: ID model yang ingin Anda gunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung PayGo Prioritas, lihat Versi model.PROMPT_TEXT: Petunjuk teks yang akan disertakan dalam perintah. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Anda akan menerima respons JSON yang mirip dengan berikut ini.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Gunakan metode
generateContentuntuk meminta agar respons ditampilkan setelah dibuat sepenuhnya. Untuk mengurangi persepsi latensi bagi audiens manusia, streaming respons saat respons dibuat menggunakan metodestreamGenerateContent. - ID model multimodal terletak di akhir URL sebelum metode
(misalnya,
gemini-2.0-flash). Contoh ini mungkin mendukung model lain juga.
Memverifikasi penggunaan Priority PayGo
Anda dapat memverifikasi apakah permintaan menggunakan Priority PayGo dari jenis traffic dalam respons, seperti yang ditunjukkan dalam contoh berikut.
Python
Anda dapat memverifikasi apakah
Priority PayGo digunakan untuk permintaan dari kolom traffic_type
dalam respons. Jika permintaan Anda diproses menggunakan
Priority PayGo, kolom traffic_type akan ditetapkan ke
ON_DEMAND_PRIORITY.
sdk_http_response=HttpResponse( headers=) candidates=[Candidate( avg_logprobs=-0.539712212302468, content=Content( parts=[ Part( text="""Response to sample request. """ ), ], role='model' ), finish_reason= nishReason.STOP: 'STOP'> )] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata( candidates_token_count=1408, candidates_tokens_details=[ ModalityTokenCount( modality= ty.TEXT: 'TEXT'>, token_count=1408 ), ], prompt_token_count=5, prompt_tokens_details=[ ModalityTokenCount( modality= ty.TEXT: 'TEXT'>, token_count=5 ), ], thoughts_token_count=1356, total_token_count=2769, traffic_type= fficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'> ) automatic_function_calling_history=[] parsed=None
REST
Anda dapat memverifikasi apakah
Priority PayGo digunakan untuk permintaan dari kolom trafficType
dalam respons. Jika permintaan Anda diproses menggunakan
Priority PayGo, kolom trafficType akan ditetapkan ke
ON_DEMAND_PRIORITY.
{ "candidates": [ { "content": { "role": "model", "parts": [ { "text": "Response to sample request." } ] }, "finishReason": "STOP" } ], "usageMetadata": { "promptTokenCount": 3, "candidatesTokenCount": 900, "totalTokenCount": 1957, "trafficType": "ON_DEMAND_PRIORITY", "thoughtsTokenCount": 1054 } }
Batas ramp
PayGo Prioritas menetapkan batas peluncuran di tingkat organisasi. Batas peningkatan membantu memberikan performa yang dapat diprediksi dan konsisten. Batas awal bergantung pada model, sebagai berikut:
- Model Gemini Flash dan Flash-Lite: 4 juta token/menit.
- Model Gemini Pro: 1 juta token/mnt.
Batas penambahan meningkat sebesar 50% untuk setiap 10 menit penggunaan berkelanjutan.
Jika permintaan melebihi batas peluncuran dan sistem kelebihan kapasitas karena beban traffic yang tinggi, permintaan akan diturunkan ke Standard PayGo dan dikenai biaya sesuai tarif Standard PayGo.
Untuk meminimalkan penurunan versi, tingkatkan penggunaan secara bertahap agar tetap dalam batas. Jika Anda masih memerlukan performa yang lebih baik, pertimbangkan untuk membeli kuota Throughput yang Disediakan tambahan.
Anda dapat memverifikasi apakah permintaan diturunkan dari respons. Untuk permintaan yang di-downgrade ke Standard PayGo, jenis traffic ditetapkan ke ON_DEMAND. Untuk mengetahui informasi selengkapnya, lihat
Memverifikasi penggunaan PayGo Prioritas.
Langkah berikutnya
- Untuk mempelajari lebih lanjut Throughput yang Disediakan, lihat Throughput yang Disediakan.
- Untuk mempelajari kuota dan batas Vertex AI, lihat Kuota dan batas Vertex AI.
- Untuk mempelajari lebih lanjut kuota dan batas sistem, lihat dokumentasi Cloud Quotas. Google Cloud