Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Priority PayGo

優先従量課金制（優先 PayGo）は、プロビジョンドスループットの事前契約なしで、標準従量課金制よりも一貫したパフォーマンスを提供する使用オプションです。

Priority PayGo を使用すると、Standard PayGo よりも高い料金でトークン使用量ごとに課金されます。料金については、Vertex AI の料金ページをご覧ください。

Priority PayGo を使用する場合

Priority PayGo は、トラフィックパターンが変動する、または予測不可能なビジネスクリティカルなワークロードに最適です。ユースケースの例を以下に示します。

顧客向けの仮想アシスタント
エージェントワークフローとエージェント間のインタラクション
研究シミュレーション

サポートされているモデルと地域

次のモデルは、global エンドポイントでのみ Priority PayGo をサポートしています。Priority PayGo は、リージョンエンドポイントまたはマルチリージョンエンドポイントをサポートしていません。

Priority PayGo を使用する

Priority PayGo を使用して Vertex AI の Gemini API にリクエストを送信するには、リクエストに X-Vertex-AI-LLM-Shared-Request-Type ヘッダーを含める必要があります。Priority PayGo は次の 2 つの方法で使用できます。

プロビジョンドスループットの割り当て（利用可能な場合）を使用し、Priority PayGo にスピルオーバーします。
Priority PayGo のみを使用します。

プロビジョンドスループットをデフォルトとして使用しながら、Priority PayGo を使用する

優先 PayGo を使用する前に使用可能なプロビジョンドスループットの割り当てを利用するには、次の例に示すように、リクエストにヘッダー X-Vertex-AI-LLM-Shared-Request-Type: priority を含めます。

Python

インストール

pip install --upgrade google-genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

Priority PayGo を使用するように生成 AI クライアントを初期化します。この手順を行うと、同じクライアントで優先 PayGo を使用して Gemini API とやり取りするために、コードをさらに調整する必要はありません。

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際のプロジェクト ID。
MODEL_ID: Priority PayGo を初期化するモデルのモデル ID。優先 PayGo をサポートするモデルの一覧については、モデルのバージョンをご覧ください。
PROMPT_TEXT: プロンプトに含める指示のテキスト。 JSON

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

次のような JSON レスポンスが返されます。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

generateContent メソッドを使用して、レスポンスが完全に生成された後に返されるようにリクエストします。ユーザーが認識するレイテンシを短縮するには、streamGenerateContent メソッドを使用して、生成時にレスポンスをストリーミングします。
マルチモーダルモデル ID は、URL の末尾のメソッドの前に配置されます（例: gemini-2.0-flash）。このサンプルでは、他のモデルもサポートされている場合があります。

Priority PayGo のみを使用する

Priority PayGo のみを使用するには、次の例に示すように、リクエストにヘッダー X-Vertex-AI-LLM-Request-Type: shared と X-Vertex-AI-LLM-Shared-Request-Type: priority を含めます。

Python

インストール

pip install --upgrade google-genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "priority"
      },
  )
)

REST

リクエストのデータを使用する前に、次のように置き換えます。

PROJECT_ID: 実際のプロジェクト ID。
MODEL_ID: Priority PayGo を初期化するモデルのモデル ID。優先 PayGo をサポートするモデルの一覧については、モデルのバージョンをご覧ください。
PROMPT_TEXT: プロンプトに含める指示のテキスト。 JSON

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: priority" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

次のような JSON レスポンスが返されます。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

generateContent メソッドを使用して、レスポンスが完全に生成された後に返されるようにリクエストします。ユーザーが認識するレイテンシを短縮するには、streamGenerateContent メソッドを使用して、生成時にレスポンスをストリーミングします。
マルチモーダルモデル ID は、URL の末尾のメソッドの前に配置されます（例: gemini-2.0-flash）。このサンプルでは、他のモデルもサポートされている場合があります。

Priority PayGo の使用状況を確認する

次の例に示すように、レスポンスのトラフィックタイプから、リクエストで Priority PayGo が使用されたかどうかを確認できます。

Python

リクエストで Priority PayGo が使用されたかどうかは、レスポンスの traffic_type フィールドで確認できます。リクエストが Priority PayGo を使用して処理された場合、traffic_type フィールドは ON_DEMAND_PRIORITY に設定されます。

sdk_http_response=HttpResponse(
  headers=<dict len=9>
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_PRIORITY: 'ON_DEMAND_PRIORITY'>
) automatic_function_calling_history=[] parsed=None

REST

リクエストで Priority PayGo が使用されたかどうかは、レスポンスの trafficType フィールドで確認できます。リクエストが Priority PayGo を使用して処理された場合、trafficType フィールドは ON_DEMAND_PRIORITY に設定されます。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_PRIORITY",
    "thoughtsTokenCount": 1054
  }
}

ランプの上限

Priority PayGo では、ランプアップの上限が組織レベルで設定されます。ランプアップの上限は、予測可能で一貫したパフォーマンスを実現するのに役立ちます。上限の初期値はモデルによって異なります。

Gemini Flash モデルと Flash-Lite モデル: 1 分あたり 400 万個のトークン。
Gemini Pro モデル: 100 万トークン/分。

ランプアップの上限は、使用時間が 10 分継続するごとに 50% 増加します。

リクエストがランプアップの上限を超えた場合や、トラフィックの負荷が高いためにシステムが一時的に容量を超えた場合は、リクエストが Standard PayGo にダウングレードされ、Standard PayGo の料金で課金されることがあります。

ダウングレードを最小限に抑えるには、使用量を段階的にスケーリングして上限内に収めます。それでもパフォーマンスの改善が必要な場合は、追加のプロビジョンドスループット割り当ての購入を検討してください。

リクエストがレスポンスからダウングレードされたかどうかを確認できます。Standard PayGo にダウングレードされたリクエストの場合、トラフィックタイプは ON_DEMAND に設定されます。詳細については、優先 PayGo の使用状況を確認するをご覧ください。

次のステップ

プロビジョンドスループットでプロビジョンドスループットの詳細を確認する。
Vertex AI の割り当てと上限で Vertex AI の割り当てと上限の詳細を確認する。
Google Cloud の割り当てとシステムの上限の詳細を確認する。Cloud Quotas のドキュメントをご覧ください。

Priority PayGo コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Priority PayGo を使用する場合

サポートされているモデルと地域

Priority PayGo を使用する

プロビジョンド スループットをデフォルトとして使用しながら、Priority PayGo を使用する

Python

インストール

REST

Priority PayGo のみを使用する

Python

インストール

REST

Priority PayGo の使用状況を確認する

Python

REST

ランプの上限

次のステップ

Priority PayGo

プロビジョンドスループットをデフォルトとして使用しながら、Priority PayGo を使用する