Priority PayGo

Priority pay-as-you-go (Priority PayGo) adalah opsi penggunaan yang memberikan performa lebih konsisten daripada Standard PayGo tanpa komitmen awal Provisioned Throughput.

Saat menggunakan Priority PayGo, Anda akan dikenai biaya per penggunaan token dengan tarif yang lebih tinggi daripada Standard PayGo. Untuk mengetahui informasi tentang harga, lihat halaman harga Gemini Enterprise Agent Platform.

Kapan harus menggunakan Priority PayGo

Priority PayGo ideal untuk beban kerja penting bisnis dengan pola traffic yang berfluktuasi atau tidak dapat diprediksi. Berikut adalah contoh kasus penggunaan:

  • Asisten virtual yang berinteraksi dengan pelanggan
  • Alur kerja agentic dan interaksi lintas agen
  • Simulasi penelitian

Model dan lokasi yang didukung

Model berikut hanya mendukung Priority PayGo di endpoint global. Priority PayGo tidak mendukung endpoint regional atau multiregional.

Menggunakan Priority PayGo

Untuk mengirim permintaan ke Gemini API di Gemini Enterprise Agent Platform menggunakan Priority PayGo, Anda harus menyertakan header X-Vertex-AI-LLM-Shared-Request-Type dalam permintaan. Anda dapat menggunakan Priority PayGo dengan dua cara:

  • Menggunakan kuota Provisioned Throughput (jika tersedia) dan meluap ke Priority PayGo.

  • Hanya menggunakan Priority PayGo.

Menggunakan Priority PayGo saat menggunakan Provisioned Throughput sebagai default

Untuk menggunakan kuota Provisioned Throughput yang tersedia sebelum menggunakan Priority PayGo, sertakan header X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam contoh berikut.

Python

Instal

pip install --upgrade google-genai

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Lakukan inisialisasi klien GenAI untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: [Project ID](/resource-manager/docs/creating-managing-projects#identifiers) Anda. .
  • MODEL_ID: ID model yang akan digunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung Priority PayGo, lihat Versi model.
  • PROMPT_TEXT: Instruksi teks yang akan disertakan dalam perintah. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Anda akan menerima respons JSON yang mirip dengan berikut ini.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Hanya menggunakan Priority PayGo

Untuk hanya menggunakan Priority PayGo, sertakan header X-Vertex-AI-LLM-Request-Type: shared dan X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam contoh berikut.

Python

Instal

pip install --upgrade google-genai

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Lakukan inisialisasi klien GenAI untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: [Project ID](/resource-manager/docs/creating-managing-projects#identifiers) Anda. .
  • MODEL_ID: ID model yang akan digunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung Priority PayGo, lihat Versi model.
  • PROMPT_TEXT: Instruksi teks yang akan disertakan dalam perintah. JSON.
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Anda akan menerima respons JSON yang mirip dengan berikut ini.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Memverifikasi penggunaan Priority PayGo

Anda dapat memverifikasi apakah permintaan menggunakan Priority PayGo dari jenis traffic dalam respons, seperti yang ditunjukkan dalam contoh berikut.

Python

Anda dapat memverifikasi apakah Priority PayGo digunakan untuk permintaan dari kolom traffic_type dalam respons. Jika permintaan Anda diproses menggunakan Priority PayGo, kolom traffic_type akan ditetapkan ke ON_DEMAND_PRIORITY.

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Anda dapat memverifikasi apakah Priority PayGo digunakan untuk permintaan dari kolom trafficType dalam respons. Jika permintaan Anda diproses menggunakan Priority PayGo, kolom trafficType akan ditetapkan ke ON_DEMAND_PRIORITY.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Batas peningkatan

Priority PayGo menetapkan batas peningkatan di tingkat organisasi. Batas peningkatan membantu memberikan performa yang konsisten dan dapat diprediksi. Batas awal bergantung pada model, sebagai berikut:

  • Model Gemini Flash dan Flash-Lite: 4 juta token/menit.
  • Model Gemini Pro: 1 juta token/menit.

Batas peningkatan bertambah 50% untuk setiap 10 menit penggunaan berkelanjutan.

Jika permintaan melebihi batas peningkatan atau sistem sementara melebihi kapasitas karena beban traffic yang tinggi, permintaan dapat diturunkan ke Standard PayGo dan dikenai biaya dengan tarif Standard PayGo.

Untuk meminimalkan penurunan, tingkatkan penggunaan secara bertahap agar tetap berada dalam batas. Jika Anda masih memerlukan performa yang lebih baik, pertimbangkan untuk membeli kuota Provisioned Throughput tambahan.

Anda dapat memverifikasi apakah permintaan diturunkan dari respons. Untuk permintaan yang diturunkan ke Standard PayGo, jenis traffic ditetapkan ke ON_DEMAND. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi penggunaan Priority PayGo.

Langkah berikutnya