Flex PayGo

灵活的随用随付方案 (Flex PayGo) 是一种经济实惠的方案，可用于访问 Gemini 模型，以处理非关键工作负载，这些工作负载可以容忍更长的响应时间和更高的节流。与标准 PayGo 相比，Flex PayGo 可享受 50% 的折扣。

何时使用 Flex PayGo

Flex PayGo 非常适合同步、能够容忍延迟时间且不属于时间紧迫的非关键任务。以下是用例示例：

离线分析文本、文档、图片、音频和视频文件
模型质量评估
数据注解和加标签
文档翻译
构建商品清单

支持的型号和地区

以下预览版 Gemini 模型仅在 global 端点中支持 Flex PayGo。Flex PayGo 不支持区域级或多区域级端点。

Gemini 3 Flash 预览版
Gemini 3 Pro 预览版
Gemini 3 Pro Image 预览版

使用 Flex PayGo

如需使用 Flex PayGo 向 Gemini API 发送请求，您必须在请求中添加 X-Vertex-AI-LLM-Shared-Request-Type 标头。您可以通过以下两种方式使用 Flex PayGo：

使用预配吞吐量配额（如果可用），然后使用灵活按需付费。
仅使用 Flex PayGo。

请注意，使用 Flex PayGo 的请求的延迟时间比 Standard PayGo 的长。默认超时时间为 20 分钟，您可以使用 timeout 参数（以毫秒为单位）替换此值。允许的最大值为 30 分钟。

在将预配吞吐量用作默认设置的同时使用灵活 PayGo

如需在采用灵活 PayGo 之前使用任何可用的预配吞吐量配额，请在请求中添加 X-Vertex-AI-LLM-Shared-Request-Type: flex 标头，如以下示例所示。

Python

安装

pip install --upgrade google-genai

如需了解详情，请参阅 SDK 参考文档。

设置环境变量以将 Gen AI SDK 与 Vertex AI 搭配使用：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

初始化生成式 AI 客户端以使用 Flex PayGo。完成此步骤后，您无需对代码进行进一步调整，即可在同一客户端上使用 Flex PayGo 与 Gemini API 进行交互。

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Shared-Request-Type": "flex"
      },
    # timeout = 600000  # Timeout in milliseconds
  )
)

REST

设置您的环境后，您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。

在使用任何请求数据之前，请先进行以下替换：

PROJECT_ID：您的项目 ID。
MODEL_ID：您要为其初始化 Flex PayGo 的模型的模型 ID。如需查看支持 Flex PayGo 的模型列表，请参阅模型版本。
PROMPT_TEXT：要包含在提示中的文本说明。 JSON。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Server-Timeout: 600" \  # Timeout in milliseconds
  -H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

您应该收到类似以下内容的 JSON 响应。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

请注意此示例网址中的以下内容：

使用 generateContent 方法请求在回答完全生成后返回回答。为了降低真人观众对于延迟的感知度，请使用 streamGenerateContent 方法在生成回答时流式传输回答。
多模态模型 ID 位于网址末尾且位于方法之前（例如 gemini-2.0-flash）。此示例可能还支持其他模型。

仅使用 Flex PayGo

如需仅使用 Flex PayGo，请在请求中添加标头 X-Vertex-AI-LLM-Request-Type: shared 和 X-Vertex-AI-LLM-Shared-Request-Type: flex，如以下示例所示。

Python

安装

pip install --upgrade google-genai

如需了解详情，请参阅 SDK 参考文档。

设置环境变量以将 Gen AI SDK 与 Vertex AI 搭配使用：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

初始化生成式 AI 客户端以使用 Flex PayGo。完成此步骤后，您无需对代码进行进一步调整，即可在同一客户端上使用 Flex PayGo 与 Gemini API 进行交互。

from google import genai
from google.genai.types import HttpOptions
client = genai.Client(
  vertexai=True, project='your_project_id', location='global',
  http_options=HttpOptions(
    api_version="v1",
      headers={
        "X-Vertex-AI-LLM-Request-Type": "shared",
        "X-Vertex-AI-LLM-Shared-Request-Type": "flex"
      },
    # timeout = 600000  # Timeout in milliseconds
  )
)

REST

在使用任何请求数据之前，请先进行以下替换：

PROJECT_ID：您的项目 ID。
MODEL_ID：您要为其初始化 Flex PayGo 的模型的模型 ID。如需查看支持 Flex PayGo 的模型列表，请参阅模型版本。
PROMPT_TEXT：要包含在提示中的文本说明。 JSON。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "X-Server-Timeout: 600" \  # Timeout in milliseconds
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  -H "X-Vertex-AI-LLM-Shared-Request-Type: flex" \
  "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/MODEL_ID:generateContent" -d \
  $'{
      "contents": {
        "role": "model",
        "parts": { "text": "PROMPT_TEXT" }
    }
  }'

您应该收到类似以下内容的 JSON 响应。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

请注意此示例网址中的以下内容：

使用 generateContent 方法请求在回答完全生成后返回回答。为了降低真人观众对于延迟的感知度，请使用 streamGenerateContent 方法在生成回答时流式传输回答。
多模态模型 ID 位于网址末尾且位于方法之前（例如 gemini-2.0-flash）。此示例可能还支持其他模型。

验证 Flex PayGo 使用情况

您可以从响应中的流量类型验证请求是否使用了 Flex PayGo，如以下示例所示。

Python

您可以通过响应中的 traffic_type 字段验证是否已针对请求使用 Flex PayGo。如果您的请求是使用 Flex PayGo 处理的，则 traffic_type 字段会设置为 ON_DEMAND_FLEX。

sdk_http_response=HttpResponse(
  headers=
) candidates=[Candidate(
  avg_logprobs=-0.539712212302468,
  content=Content(
    parts=[
      Part(
        text="""Response to sample request.
        """
      ),
    ],
    role='model'
  ),
  finish_reason=<FinishReason.STOP: 'STOP'>
)] create_time=datetime.datetime(2025, 12, 3, 20, 32, 55, 916498, tzinfo=TzInfo(0)) model_version='gemini-2.5-flash' prompt_feedback=None response_id='response_id' usage_metadata=GenerateContentResponseUsageMetadata(
  candidates_token_count=1408,
  candidates_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=1408
    ),
  ],
  prompt_token_count=5,
  prompt_tokens_details=[
    ModalityTokenCount(
      modality=<MediaModality.TEXT: 'TEXT'>,
      token_count=5
    ),
  ],
  thoughts_token_count=1356,
  total_token_count=2769,
  traffic_type=<TrafficType.ON_DEMAND_FLEX: 'ON_DEMAND_FLEX'>
) automatic_function_calling_history=[] parsed=None

REST

您可以通过响应中的 trafficType 字段验证是否已针对请求使用 Flex PayGo。如果您的请求是使用 Flex PayGo 处理的，则 trafficType 字段会设置为 ON_DEMAND_FLEX。

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "Response to sample request."
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 3,
    "candidatesTokenCount": 900,
    "totalTokenCount": 1957,
    "trafficType": "ON_DEMAND_FLEX",
    "thoughtsTokenCount": 1054
  }
}

Flex PayGo 的额外配额

除了内容生成请求的可用配额（包括用于溢出流量的预配吞吐量配额）之外，采用灵活 PayGo 方案的请求还受以下配额的限制：

说明	项目中每个基础模型的 QPM
项目中每个使用 Flex PayGo 的基本模型的配额请求	3000

后续步骤

如需了解 Vertex AI 的配额和限制，请参阅 Vertex AI 配额和限制。
如需详细了解 Google Cloud 配额和系统限制，请参阅 Cloud 配额文档。

Flex PayGo 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

何时使用 Flex PayGo

支持的型号和地区

使用 Flex PayGo

在将预配吞吐量用作默认设置的同时使用灵活 PayGo

Python

安装

REST

仅使用 Flex PayGo

Python

安装

REST

验证 Flex PayGo 使用情况

Python

REST

Flex PayGo 的额外配额

后续步骤

Flex PayGo