Dokumentasi Vertex AI tidak lagi diperbarui

Layanan Vertex AI kini menjadi bagian dari Platform Agen Gemini Enterprise. Lihat informasi terbaru dalam dokumentasi Platform Agen.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Priority PayGo

Priority pay-as-you-go (Priority PayGo) adalah opsi konsumsi yang memberikan performa lebih konsisten daripada Standard PayGo tanpa komitmen di muka Provisioned Throughput.

Saat menggunakan Priority PayGo, Anda akan dikenai biaya per penggunaan token dengan tarif yang lebih tinggi daripada Standard PayGo. Untuk mengetahui informasi tentang harga, lihat halaman harga Vertex AI.

Kapan harus menggunakan Priority PayGo

Priority PayGo ideal untuk beban kerja penting bisnis dengan pola traffic yang berfluktuasi atau tidak terprediksi. Berikut adalah contoh kasus penggunaan:

Asisten virtual yang berinteraksi dengan pelanggan
Alur kerja agentic dan interaksi lintas agen
Simulasi penelitian

Model dan lokasi yang didukung

Model berikut hanya mendukung Priority PayGo di endpoint global. Priority PayGo tidak mendukung endpoint regional atau multiregional.

Menggunakan Priority PayGo

Untuk mengirim permintaan ke Gemini API di Vertex AI menggunakan Priority PayGo, Anda harus menyertakan header X-Vertex-AI-LLM-Shared-Request-Type dalam permintaan. Anda dapat menggunakan Priority PayGo dengan dua cara:

Menggunakan kuota Provisioned Throughput (jika tersedia) dan meluap ke Priority PayGo.
Hanya menggunakan Priority PayGo.

Menggunakan Priority PayGo saat menggunakan Provisioned Throughput sebagai default

Untuk menggunakan kuota Provisioned Throughput yang tersedia sebelum menggunakan Priority PayGo, sertakan header X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam contoh berikut.

Python

Instal

pip install --upgrade google-genai

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Lakukan inisialisasi klien GenAI untuk menggunakan Priority PayGo. Setelah melakukan langkah ini, Anda tidak perlu melakukan penyesuaian lebih lanjut pada kode untuk berinteraksi dengan Gemini API menggunakan Priority PayGo di klien yang sama.

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Project ID Anda.
MODEL_ID: ID model yang ingin Anda gunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung Priority PayGo, lihat Versi model.
PROMPT_TEXT: Petunjuk teks yang akan disertakan dalam perintah. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Anda akan menerima respons JSON yang mirip dengan berikut ini.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Gunakan metode generateContent untuk meminta respons ditampilkan setelah dibuat sepenuhnya. Untuk mengurangi persepsi latensi bagi audiens manusia, streaming respons saat dibuat menggunakan metode.streamGenerateContent
ID model multimodal terletak di akhir URL sebelum metode (misalnya, gemini-2.0-flash). Contoh ini mungkin juga mendukung model lain.

Hanya menggunakan Priority PayGo

Untuk hanya menggunakan Priority PayGo, sertakan header X-Vertex-AI-LLM-Request-Type: shared dan X-Vertex-AI-LLM-Shared-Request-Type: priority dalam permintaan Anda, seperti yang ditunjukkan dalam contoh berikut.

Python

Instal

pip install --upgrade google-genai

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Project ID Anda.
MODEL_ID: ID model yang ingin Anda gunakan untuk menginisialisasi Priority PayGo. Untuk mengetahui daftar model yang mendukung Priority PayGo, lihat Versi model.
PROMPT_TEXT: Petunjuk teks yang akan disertakan dalam perintah. JSON.

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

Anda akan menerima respons JSON yang mirip dengan berikut ini.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Gunakan metode generateContent untuk meminta respons ditampilkan setelah dibuat sepenuhnya. Untuk mengurangi persepsi latensi bagi audiens manusia, streaming respons saat dibuat menggunakan metode.streamGenerateContent
ID model multimodal terletak di akhir URL sebelum metode (misalnya, gemini-2.0-flash). Contoh ini mungkin juga mendukung model lain.

Memverifikasi penggunaan Priority PayGo

Anda dapat memverifikasi apakah permintaan menggunakan Priority PayGo dari jenis traffic dalam respons, seperti yang ditunjukkan dalam contoh berikut.

Python

Anda dapat memverifikasi apakah Priority PayGo digunakan untuk permintaan dari kolom traffic_type dalam respons. Jika permintaan Anda diproses menggunakan Priority PayGo, kolom traffic_type akan ditetapkan ke ON_DEMAND_PRIORITY.

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

Anda dapat memverifikasi apakah Priority PayGo digunakan untuk permintaan dari kolom trafficType dalam respons. Jika permintaan Anda diproses menggunakan Priority PayGo, kolom trafficType akan ditetapkan ke ON_DEMAND_PRIORITY.

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

Batas peningkatan

Priority PayGo menetapkan batas peningkatan di tingkat organisasi. Batas peningkatan membantu memberikan performa yang konsisten dan dapat diprediksi. Batas awal bergantung pada model, sebagai berikut:

Model Gemini Flash dan Flash-Lite: 4 juta token/menit.
Model Gemini Pro: 1 juta token/menit.

Batas peningkatan bertambah 50% untuk setiap 10 menit penggunaan berkelanjutan.

Jika permintaan melebihi batas peningkatan atau sistem sementara melebihi kapasitas karena beban traffic yang tinggi, permintaan dapat diturunkan ke Standard PayGo dan dikenai biaya dengan tarif Standard PayGo.

Untuk meminimalkan penurunan, tingkatkan penggunaan secara bertahap agar tetap berada dalam batas. Jika Anda masih memerlukan performa yang lebih baik, pertimbangkan untuk membeli kuota Provisioned Throughput tambahan.

Anda dapat memverifikasi apakah permintaan diturunkan dari respons. Untuk permintaan yang diturunkan ke Standard PayGo, jenis traffic ditetapkan ke ON_DEMAND. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi penggunaan Priority PayGo.

Langkah berikutnya

Untuk mempelajari Provisioned Throughput lebih lanjut, lihat Provisioned Throughput.
Untuk mempelajari kuota dan batas Vertex AI, lihat Kuota dan batas Vertex AI.
Untuk mempelajari kuota dan batas sistem lebih lanjut, lihat dokumentasi Kuota Cloud. Google Cloud

Dokumentasi Vertex AI tidak lagi diperbarui

Priority PayGo Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Kapan harus menggunakan Priority PayGo

Model dan lokasi yang didukung

Menggunakan Priority PayGo

Menggunakan Priority PayGo saat menggunakan Provisioned Throughput sebagai default

Python

Instal

REST

Hanya menggunakan Priority PayGo

Python

Instal

REST

Memverifikasi penggunaan Priority PayGo

Python

REST

Batas peningkatan

Langkah berikutnya

Priority PayGo