Priority pay-as-you-go (Priority PayGo) adalah opsi penggunaan yang memberikan performa lebih konsisten daripada Standard PayGo tanpa komitmen awal Provisioned Throughput.
Saat menggunakan Priority PayGo, Anda akan dikenai biaya per penggunaan token dengan tarif yang lebih tinggi daripada Standard PayGo. Untuk mengetahui informasi tentang harga, lihat halaman harga Gemini Enterprise Agent Platform.
Kapan harus menggunakan Priority PayGo
Priority PayGo ideal untuk beban kerja penting bisnis dengan pola traffic yang berfluktuasi atau tidak dapat diprediksi. Berikut adalah contoh kasus penggunaan:
- Asisten virtual yang berinteraksi dengan pelanggan
- Alur kerja agentic dan interaksi lintas agen
- Simulasi penelitian
Model dan lokasi yang didukung
Model berikut hanya mendukung Priority PayGo di endpoint global. Priority PayGo tidak mendukung endpoint regional atau multiregional.
gemini-3.5-flashgemini-3.1-flash-litegemini-3.1-pro-previewgemini-3-flash-previewgemini-2.5-progemini-2.5-flashgemini-2.5-flash-lite
Menggunakan Priority PayGo
Untuk mengirim permintaan ke Gemini API di Gemini Enterprise Agent Platform menggunakan Priority PayGo, Anda harus menyertakan header X-Vertex-AI-LLM-Shared-Request-Type dalam permintaan. Anda dapat menggunakan Priority PayGo dengan dua cara:
Menggunakan kuota Provisioned Throughput (jika tersedia) dan meluap ke Priority PayGo.
Hanya menggunakan Priority PayGo.
Menggunakan Priority PayGo saat menggunakan Provisioned Throughput sebagai default
Untuk menggunakan kuota Provisioned Throughput yang tersedia sebelum menggunakan Priority PayGo, sertakan header X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam contoh berikut.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Lakukan inisialisasi klien GenAI untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
PROJECT_ID: [Project ID](/resource-manager/docs/creating-managing-projects#identifiers) Anda. .MODEL_ID: ID model yang akan digunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung Priority PayGo, lihat Versi model.PROMPT_TEXT: Instruksi teks yang akan disertakan dalam perintah. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Anda akan menerima respons JSON yang mirip dengan berikut ini.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Gunakan metode
generateContentuntuk meminta agar respons ditampilkan setelah sepenuhnya dibuat. Untuk mengurangi persepsi latensi bagi audiens manusia, streaming respons saat dibuat menggunakan metode.streamGenerateContent - ID model multimodal terletak di akhir URL sebelum metode
(misalnya,
gemini-2.0-flash). Contoh ini mungkin juga mendukung model lain.
Hanya menggunakan Priority PayGo
Untuk hanya menggunakan Priority PayGo, sertakan header X-Vertex-AI-LLM-Request-Type: shared dan X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam contoh berikut.
Python
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Lakukan inisialisasi klien GenAI untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.
from google import genai from google.genai.types import HttpOptions client = genai.Client( vertexai=True, project='your_project_id', location='global', http_options=HttpOptions( api_version="v1", headers={ "X-Vertex-AI-LLM-Request-Type": "shared", "X-Vertex-AI-LLM-Shared-Request-Type": "priority" }, ) )
REST
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
PROJECT_ID: [Project ID](/resource-manager/docs/creating-managing-projects#identifiers) Anda. .MODEL_ID: ID model yang akan digunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung Priority PayGo, lihat Versi model.PROMPT_TEXT: Instruksi teks yang akan disertakan dalam perintah. JSON.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
-H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
"https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
$'{
"contents": {
"role": "model",
"parts": { "text": "PROMPT_TEXT" }
}
}'
Anda akan menerima respons JSON yang mirip dengan berikut ini.
{
"candidates": [
{
"content": {
"role": "model",
"parts": [
{
"text": "Response to sample request."
}
]
},
"finishReason": "STOP"
}
],
"usageMetadata": {
"promptTokenCount": 3,
"candidatesTokenCount": 900,
"totalTokenCount": 1957,
"trafficType": "ON_DEMAND_PRIORITY",
"thoughtsTokenCount": 1054
}
}
- Gunakan metode
generateContentuntuk meminta agar respons ditampilkan setelah sepenuhnya dibuat. Untuk mengurangi persepsi latensi bagi audiens manusia, streaming respons saat dibuat menggunakan metode.streamGenerateContent - ID model multimodal terletak di akhir URL sebelum metode
(misalnya,
gemini-2.0-flash). Contoh ini mungkin juga mendukung model lain.
Memverifikasi penggunaan Priority PayGo
Anda dapat memverifikasi apakah permintaan menggunakan Priority PayGo dari jenis traffic dalam respons, seperti yang ditunjukkan dalam contoh berikut.
Python
Anda dapat memverifikasi apakah Priority PayGo digunakan untuk permintaan dari kolom traffic_type dalam respons. Jika permintaan Anda diproses menggunakan Priority PayGo, kolom traffic_type akan ditetapkan ke ON_DEMAND_PRIORITY.
sdk_http_response=HttpResponse( headers=<dict len=9> ) candidates=[Candidate( avg_logprobs=-0.539712212302468, content=Content( parts=[ Part( text="""Response to sample request. """ ), ], role='model' ), finish_reason=<FinishReason.STOP: 'STOP'> )] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata( candidates_token_count=1408, candidates_tokens_details=[ ModalityTokenCount( modality=<MediaModality.TEXT: 'TEXT'>, token_count=1408 ), ], prompt_token_count=5, prompt_tokens_details=[ ModalityTokenCount( modality=<MediaModality.TEXT: 'TEXT'>, token_count=5 ), ], thoughts_token_count=1356, total_token_count=2769, traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'> ) automatic_function_calling_history=[] parsed=None
REST
Anda dapat memverifikasi apakah Priority PayGo digunakan untuk permintaan dari kolom trafficType dalam respons. Jika permintaan Anda diproses menggunakan Priority PayGo, kolom trafficType akan ditetapkan ke ON_DEMAND_PRIORITY.
{ "candidates": [ { "content": { "role": "model", "parts": [ { "text": "Response to sample request." } ] }, "finishReason": "STOP" } ], "usageMetadata": { "promptTokenCount": 3, "candidatesTokenCount": 900, "totalTokenCount": 1957, "trafficType": "ON_DEMAND_PRIORITY", "thoughtsTokenCount": 1054 } }
Batas peningkatan
Priority PayGo menetapkan batas peningkatan di tingkat organisasi. Batas peningkatan membantu memberikan performa yang konsisten dan dapat diprediksi. Batas awal bergantung pada model, sebagai berikut:
- Model Gemini Flash dan Flash-Lite: 4 juta token/menit.
- Model Gemini Pro: 1 juta token/menit.
Batas peningkatan bertambah 50% untuk setiap 10 menit penggunaan berkelanjutan.
Jika permintaan melebihi batas peningkatan atau sistem sementara melebihi kapasitas karena beban traffic yang tinggi, permintaan dapat diturunkan ke Standard PayGo dan dikenai biaya dengan tarif Standard PayGo.
Untuk meminimalkan penurunan, tingkatkan penggunaan secara bertahap agar tetap berada dalam batas. Jika Anda masih memerlukan performa yang lebih baik, pertimbangkan untuk membeli kuota Provisioned Throughput tambahan.
Anda dapat memverifikasi apakah permintaan diturunkan dari respons. Untuk permintaan yang diturunkan ke Standard PayGo, jenis traffic ditetapkan ke ON_DEMAND. Untuk mengetahui informasi selengkapnya, lihat
Memverifikasi penggunaan Priority PayGo.
Langkah berikutnya
- Untuk mempelajari Provisioned Throughput lebih lanjut, lihat Provisioned Throughput.
- Untuk mempelajari kuota dan batas untuk Agent Platform, lihat Kuota dan batas Gemini Enterprise Agent Platform.
- Untuk mempelajari kuota dan batas sistem lebih lanjut, lihat dokumentasi Kuota Cloud. Google Cloud