支援的模型

下表列出支援預先佈建處理量的模型、每個生成式 AI 擴充單元 (GSU) 的處理量,以及每個模型的消耗速率

Google 模型

佈建輸送量僅支援您使用特定模型 ID (而非模型別名) 從專案直接呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001),而非模型版本別名

此外,透過佈建輸送量呼叫的模型不支援其他 Vertex AI 產品,例如 Vertex AI Agents 和 Vertex AI Search。舉例來說,如果您在使用 Vertex AI Search 時對 Gemini 2.0 Flash 進行 API 呼叫,則 Gemini 2.0 Flash 的佈建輸送量訂單不會保證 Vertex AI Search 進行的呼叫。

佈建輸送量不支援批次預測呼叫。

下表列出支援佈建輸送量的 Google 模型,以及這些模型的輸送量、購買增量和消耗率。每秒處理量是指每秒所有要求中,提示輸入和生成的輸出內容。

如要瞭解工作負載所需的詞元數量,請參閱 SDK 分詞器countTokens API 的相關說明。

型號 每 GSU 的每秒總處理量 單位 最低 GSU 購買增量 燃盡率

Gemini 3 Pro

最新支援版本:gemini-3-pro-preview (預先發布版)

500 權杖 1 輸入權杖數少於或等於 200,000 個:
1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出回應文字權杖 = 6 個權杖
1 個輸出推理文字權杖 = 6 個權杖

輸入權杖數超過 200,000 個:
1 個輸入文字權杖 = 2 個權杖
1 個輸入圖片權杖 = 2 個權杖
1 個輸入影片權杖 = 2 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸出回應文字權杖 = 9 個權杖
1 個輸出推理文字權杖 = 9 個權杖

Gemini 3 Pro Image

最新支援版本:gemini-3-pro-image-preview (預先發布版)

500 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 6 個權杖
1 個輸出思考權杖 = 6 個權杖
1 個輸出圖片權杖 = 60 個權杖

Gemini 2.5 Pro

最新支援版本:gemini-2.5-pro

650 權杖 1 輸入權杖數少於或等於 200,000 個:
1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出回應文字權杖 = 8 個權杖
1 個輸出推理文字權杖 = 8 個權杖

輸入權杖數超過 200,000 個:
1 個輸入文字權杖 = 2 個權杖
1 個輸入圖片權杖 = 2 個權杖
1 個輸入影片權杖 = 2 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸出回應文字權杖 = 12 個權杖
1 個輸出推理文字權杖 = 12 個權杖

Gemini 2.5 Flash Image

最新支援版本:gemini-2.5-flash-image

2,690 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 9 個權杖
1 個輸出圖片權杖 = 100 個權杖

Gemini 2.5 Flash

最新支援版本 (GA):gemini-2.5-flash

最新支援版本 (預覽版):gemini-2.5-flash-preview-09-2025

2690 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 4 個權杖
1 個輸出回應文字權杖 = 9 個權杖
1 個輸出推理文字權杖 = 9 個權杖

Gemini 2.5 Flash-Lite

最新支援版本 (GA):gemini-2.5-flash-lite

最新支援版本 (預覽版):gemini-2.5-flash-lite-preview-09-2025

8,070 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 3 個權杖
1 個輸出回應文字權杖 = 4 個權杖
1 個輸出推理文字權杖 = 4 個權杖

Gemini 2.5 Flash with Live API

最新支援版本:gemini-live-2.5-flash

1,620 權杖 1 1 個輸入文字權杖 = 1 個輸入文字權杖
1 個輸入音訊權杖 = 6 個輸入文字權杖
1 個輸入影片權杖 = 6 個輸入文字權杖
1 個輸入工作階段記憶體權杖 = 1 個輸入文字權杖
1 個輸出文字權杖 = 4 個輸入文字權杖
1 個輸出音訊權杖 = 24 個輸入文字權杖

Gemini 2.5 Flash with Live API native audio

最新支援版本:gemini-live-2.5-flash-preview-native-audio-09-2025 (預先發布版)

1,620 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入音訊權杖 = 6 個權杖
1 個輸入影片權杖 = 6 個權杖
1 個輸入圖片權杖 = 6 個權杖
1 個輸入工作階段記憶體權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖
1 個輸出音訊權杖 = 24 個權杖

Gemini 2.0 Flash

最新支援版本:gemini-2.0-flash-001

3,360 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 7 個權杖
1 個輸出文字權杖 = 4 個權杖

Gemini 2.0 Flash-Lite

最新支援版本:gemini-2.0-flash-lite-001

6,720 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Veo 3.1 預覽版

最新支援版本:veo-3.1-generate-001 (預覽版)

0.0040 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒輸出影片 + 音訊 = 2 秒輸出影片

Veo 3.1 Fast 預覽

最新支援版本:veo-3.1-fast-generate-001 (預先發布版)

0.0080 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片

Veo 3

最新支援版本:veo-3.0-generate-001

0.0040 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片 + 音訊 = 2 秒的輸出影片

Veo 3 Fast

最新支援版本:veo-3.0-fast-generate-001

0.0080 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片

Imagen 4 Ultra 生成

imagen-4.0-ultra-generate-001

0.015 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 4 生成

imagen-4.0-generate-001

0.02 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 4 快速生成

imagen-4.0-fast-generate-001

0.04 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 3 Generate 002

imagen-3.0-generate-002

0.02 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 3 Generate 001

imagen-3.0-generate-001

0.025 圖片 1 只有輸出圖片會計入佈建輸送量配額。
Imagen 3 Fast 0.05 圖片 1 只有輸出圖片會計入佈建輸送量配額。

如要瞭解模型的功能和輸入/輸出限制,請參閱模型說明文件。

新機型推出後,你隨時可以升級。如要瞭解模型供應情形和停用日期,請參閱「Google 模型」。

如要進一步瞭解支援的地區,請參閱「適用地區」。

合作夥伴模型

下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的計量單位為每秒詞元數,定義為每秒所有要求中的輸入和輸出詞元總數。

型號 每 GSU 的輸送量 (每秒權杖數) 最低 GSU 購買量 GSU 購買增量 燃盡率
Anthropic 的 Claude Opus 4.5 210 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Sonnet 4.5 350 25 1 輸入權杖少於 200,000 個:
1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖

輸入權杖大於或等於 200,000 個:
1 個輸入權杖 = 2 個權杖
1 個輸出權杖 = 7.5 個權杖
1 個快取寫入 5 分鐘權杖 = 2.5 個權杖
1 個快取寫入 1 小時權杖 = 4 個權杖
1 個快取命中權杖 = 0.2 個權杖
Anthropic 的 Claude Opus 4.1 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Haiku 4.5 1,050 8 1 輸入符記少於 200,000 個:
1 個輸入符記 = 1 個符記
1 個輸出符記 = 5 個符記
1 個快取寫入 5 分鐘符記 = 1.25 個符記
1 個快取寫入 1 小時符記 = 2 個符記
1 個快取命中符記 = 0.1 個符記
Anthropic 的 Claude Opus 4 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Sonnet 4 350 25 1 輸入權杖少於 200,000 個:
1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖

輸入權杖大於或等於 200,000 個:
1 個輸入權杖 = 2 個權杖
1 個輸出權杖 = 7.5 個權杖
1 個快取寫入 5 分鐘權杖 = 2.5 個權杖
1 個快取寫入 1 小時權杖 = 4 個權杖
1 個快取命中權杖 = 0.2 個權杖
Anthropic 的 Claude 3.7 Sonnet (已淘汰) 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet v2 (已淘汰) 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Haiku 2,000 10 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Opus 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Haiku 4,200 5 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet (已淘汰) 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖

如要瞭解支援的地區,請參閱「Anthropic Claude 地區適用情形」。如要訂購 Anthropic 模型適用的佈建輸送量,請與Google Cloud 帳戶代表聯絡。

開放式模型

下表列出支援佈建總處理量的開放模型的總處理量、購買增量和消耗率。

型號 每 GSU 的輸送量 (每秒權杖數) 最低 GSU 購買量 GSU 購買增量 燃盡率

DeepSeek-OCR

最新支援版本:deepseek-ocr-maas

3,360 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Kimi K2 Thinking

最新支援版本:kimi-k2-thinking-maas

1,680 1 1 1 個輸入文字詞元 = 1 個權杖
1 個輸出文字詞元 = 4 個權杖

Llama 3.3 70B

最新支援版本:llama-3.3-70b-instruct-maas

1,400 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 1 個權杖

Llama 4 Maverick 17B-128E

最新支援版本:llama-4-maverick-17b-128e-instruct-maas

2,800 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Llama 4 Scout 17B-16E

最新支援版本:llama-4-scout-17b-16e-instruct-maas

4,035 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 3 個權杖

MiniMax M2

最新支援版本:minimax-m2-maas

3,360 1 1 1 個輸入文字詞元 = 1 個權杖
1 個輸出文字詞元 = 4 個權杖

OpenAI gpt-oss 120B

最新支援版本:gpt-oss-120b-maas

11,205 1 1 1 個輸入文字詞元 = 1 個權杖
1 個輸出文字詞元 = 4 個權杖

OpenAI gpt-oss 20B

最新支援版本:gpt-oss-20b-maas

14,405 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Qwen3 235B

最新支援版本:qwen3-235b-a22b-instruct-2507-maas

4,035 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Qwen3 Coder

最新支援版本:qwen3-coder-480b-a35b-instruct-maas

1,010 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Qwen3-Next-80B Instruct

最新支援版本:qwen3-next-80b-a3b-instruct-maas

6,725 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 8 個權杖

Qwen3-Next-80B Thinking

最新支援版本:qwen3-next-80b-a3b-thinking-maas

6,725 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 8 個權杖

Google 和開放式模型提供的功能

下表列出 Google 模型和開放模型搭配佈建輸送量時可用的功能:

功能 Google 模型 開放式模型 (預覽版)
透過 Google Cloud 控制台訂購
支援全球端點 請參閱「全球端點模型支援」。 請參閱「全球端點模型支援」。
支援監督式微調模型
支援使用 API 金鑰
隱含脈絡快取整合。 不適用
整合明確的脈絡快取功能 不適用
機器學習處理作業 僅在特定地區推出。詳情請參閱「單一可用區佈建輸送量」。 不適用
可用的訂單條款 1 週、1 個月、3 個月和 1 年 1 個月、3 個月和 1 年
透過控制台變更訂單
訂單狀態:待審、已核准、有效、已過期
預設情況下,超出配額的用量會溢出至即付即用方案
API 標頭控制項:使用「專用」只使用佈建的輸送量,或使用「共用」只使用隨用隨付
監控指標資訊主頁快訊

支援全球端點模型

佈建的處理量支援 Google 模型和開放模型的全球端點

如果流量超出佈建處理量配額,系統預設會使用全域端點。

如要將佈建輸送量指派給模型的全域端點,請在下達佈建輸送量訂單時選取 global 做為區域。

支援全球端點的 Google 模型

下表列出「佈建輸送量」支援全域端點的 Google 模型:

型號 最新支援的模型版本
Gemini 3 Pro (預先發布版) gemini-3-pro-preview
Gemini 3 Pro Image (預先發布版) gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash
  • gemini-2.5-flash-preview-09-2025  (預覽)
  • gemini-2.5-flash  (GA)
Gemini 2.5 Flash-Lite
  • gemini-2.5-flash-lite-preview-09-2025  (預覽)
  • gemini-2.5-flash-lite  (GA)
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

支援全域端點的開放模型

下表列出可透過全球端點使用佈建輸送量的開放模型:

型號 最新支援的模型版本
DeepSeek-OCR deepseek-ocr-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

支援監督式微調模型

如果 Google 模型支援監督式微調,則支援下列項目:

  • 佈建輸送量可套用至基礎模型,以及這些基礎模型的監督式微調版本。

  • 監督式微調模型端點和對應的基礎模型會計入相同的佈建輸送量配額。

    舉例來說,如果為特定專案的 gemini-2.0-flash-lite-001 購買佈建輸送量,系統會優先處理該專案中,透過受監管的微調版 gemini-2.0-flash-lite-001 提出的要求。使用適當的標頭來控管流量行為。

後續步驟