支援的模型

下表列出支援預先佈建處理量的模型、每個生成式 AI 擴充單元 (GSU) 的處理量,以及每個模型的消耗率

Google 模型

佈建輸送量僅支援您使用特定模型 ID (而非模型別名),直接從專案呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001),而非模型版本別名

雖然「預先佈建的輸送量」可確保模型要求容量,但不會納入或略過您可能使用的其他工具配額,例如基礎。視工作負載大小而定,您可能需要另外申請這些工具的額外配額。

此外,透過其他 Vertex AI 產品 (例如 Vertex AI Agents 和 Vertex AI Search) 呼叫的模型,不支援佈建輸送量。舉例來說,如果您在使用 Vertex AI Search 時,對 Gemini 2.0 Flash 進行 API 呼叫,則 Gemini 2.0 Flash 的佈建輸送量訂單無法保證 Vertex AI Search 進行的呼叫。

佈建輸送量不支援批次預測呼叫。

下表列出支援佈建輸送量的 Google 模型,以及這些模型的輸送量、購買增量和消耗率。每秒處理量是指每秒所有要求中的提示輸入和生成輸出。

如要瞭解工作負載所需的詞元數量,請參閱 SDK 分詞器countTokens API 的相關說明。

型號 每 GSU 的每秒總處理量 單位 最低 GSU 購買增量 燃盡率

Gemini 3.1 Flash Image

最新支援版本:gemini-3.1-flash-image-preview (預覽版)

2015 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 6 個權杖
1 個輸出圖片權杖 = 120 個權杖

Gemini 3.1 Pro

最新支援版本:gemini-3.1-pro-preview (預覽版)

500 權杖 1 輸入權杖數小於或等於 200,000 個:
1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸入快取權杖 = 0.1 個權杖
1 個輸出回應文字權杖 = 6 個權杖
1 個輸出推理文字權杖 = 6 個權杖

輸入權杖數大於 200,000 個:
1 個輸入文字權杖 = 2 個權杖
1 個輸入圖片權杖 = 2 個權杖
1 個輸入影片權杖 = 2 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸入快取權杖 = 0.2 個權杖
1 個輸出回應文字權杖 = 9 個權杖
1 個輸出推理文字權杖 = 9 個權杖

Gemini 3 Flash

最新支援版本:gemini-3-flash-preview (預覽版)

2015 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸入文字、圖片、影片快取權杖 = 0.1 個權杖
1 個輸入音訊快取權杖 = 0.2 個權杖
1 個輸出回應文字權杖 = 6 個權杖
1 個輸出推理文字權杖 = 6 個權杖

Gemini 3 Pro

最新支援版本:gemini-3-pro-preview (預覽版)

500 權杖 1 輸入權杖數少於或等於 200,000 個:
1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出回應文字權杖 = 6 個權杖
1 個輸出推理文字權杖 = 6 個權杖

輸入權杖數超過 200,000 個:
1 個輸入文字權杖 = 2 個權杖
1 個輸入圖片權杖 = 2 個權杖
1 個輸入影片權杖 = 2 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸出回應文字權杖 = 9 個權杖
1 個輸出推理文字權杖 = 9 個權杖

Gemini 3 Pro Image

最新支援版本:gemini-3-pro-image-preview (預覽版)

500 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 6 個權杖
1 個輸出思考權杖 = 6 個權杖
1 個輸出圖片權杖 = 60 個權杖

Gemini 2.5 Pro

最新支援版本:gemini-2.5-pro

650 權杖 1 輸入權杖數小於或等於 200,000 個:
1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 1 個權杖
1 個輸出回應文字權杖 = 8 個權杖
1 個輸出推理文字權杖 = 8 個權杖

輸入權杖數大於 200,000 個:
1 個輸入文字權杖 = 2 個權杖
1 個輸入圖片權杖 = 2 個權杖
1 個輸入影片權杖 = 2 個權杖
1 個輸入音訊權杖 = 2 個權杖
1 個輸出回應文字權杖 = 12 個權杖
1 個輸出推理文字權杖 = 12 個權杖

Gemini 2.5 Flash Image

最新支援版本:gemini-2.5-flash-image

2,690 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 9 個權杖
1 個輸出圖片權杖 = 100 個權杖

Gemini 2.5 Flash

最新支援版本:gemini-2.5-flash

2690 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 4 個權杖
1 個輸出回應文字權杖 = 9 個權杖
1 個輸出推理文字權杖 = 9 個權杖

Gemini 2.5 Flash-Lite

最新支援版本 (GA):gemini-2.5-flash-lite

最新支援版本 (搶先版):gemini-2.5-flash-lite-preview-09-2025

8,070 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 3 個權杖
1 個輸出回應文字權杖 = 4 個權杖
1 個輸出推理文字權杖 = 4 個權杖

Gemini 2.5 Flash,搭配 Gemini Live API 原生音訊

最新支援版本:gemini-live-2.5-flash-native-audio

1,620 權杖 1 1 個輸入文字詞元 = 1 個詞元
1 個輸入音訊詞元 = 6 個詞元
1 個輸入影片詞元 = 6 個詞元
1 個輸入圖片詞元 = 6 個詞元
1 個輸入工作階段記憶體詞元 = 1 個詞元
1 個輸出文字詞元 = 4 個詞元
1 個輸出音訊詞元 = 24 個詞元

Gemini 2.0 Flash

最新支援版本:gemini-2.0-flash-001

3,360 權杖 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸入影片權杖 = 1 個權杖
1 個輸入音訊權杖 = 7 個權杖
1 個輸出文字權杖 = 4 個權杖

Gemini 2.0 Flash-Lite

最新支援版本:gemini-2.0-flash-lite-001

6,720 權杖 1 1 個輸入文字符記 = 1 個符記
1 個輸入圖片符記 = 1 個符記
1 個輸入影片符記 = 1 個符記
1 個輸入音訊符記 = 1 個符記
1 個輸出文字符記 = 4 個符記

Veo 3.1

最新支援版本:veo-3.1-generate-001

0.0040 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片 + 音訊 = 2 秒的輸出影片

Veo 3.1 Fast

最新支援版本:veo-3.1-fast-generate-001

0.0080 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片

Veo 3

最新支援版本:veo-3.0-generate-001

0.0040 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片 + 音訊 = 2 秒的輸出影片

Veo 3 Fast

最新支援版本:veo-3.0-fast-generate-001

0.0080 影片秒數 1 1 秒輸出影片 = 1 秒輸出影片
影片和音訊秒數 1 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片

虛擬試穿 001

virtual-try-on-001

0.02 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 4 Ultra 生成

imagen-4.0-ultra-generate-001

0.015 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 4 生成

imagen-4.0-generate-001

0.02 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 4 快速生成

imagen-4.0-fast-generate-001

0.04 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 3 Generate 002

imagen-3.0-generate-002

0.02 圖片 1 只有輸出圖片會計入佈建輸送量配額。

Imagen 3 Generate 001

imagen-3.0-generate-001

0.025 圖片 1 只有輸出圖片會計入佈建輸送量配額。
Imagen 3 Fast 0.05 圖片 1 只有輸出圖片會計入佈建輸送量配額。

如要瞭解模型的功能和輸入/輸出限制,請參閱模型說明文件。

新機型推出後,你隨時可以升級。如要瞭解模型供應情形和停用日期,請參閱「Google 模型」一文。

如要進一步瞭解支援的地區,請參閱「適用地區」。

合作夥伴模型

下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的計費單位為每秒詞元數,也就是每秒所有要求中輸入和輸出詞元的總數。

型號 每個 GSU 的處理量 (每秒權杖數) 最低 GSU 購買量 GSU 購買增量 燃盡率
Anthropic 的 Claude Sonnet 4.6 350 25 1 輸入詞元少於 200,000 個:
1 個輸入詞元 = 1 個詞元
1 個輸出詞元 = 5 個詞元
1 個快取寫入 5 分鐘詞元 = 1.25 個詞元
1 個快取寫入 1 小時詞元 = 2 個詞元
1 個快取命中詞元 = 0.1 個詞元

輸入詞元大於或等於 200,000 個:
1 個輸入詞元 = 2 個詞元
1 個輸出詞元 = 7.5 個詞元
1 個快取寫入 5 分鐘詞元 = 2.5 個詞元
1 個快取寫入 1 小時詞元 = 4 個詞元
1 個快取命中詞元 = 0.2 個詞元
Anthropic 的 Claude Opus 4.6 210 35 1 輸入詞元少於 200,000 個:
1 個輸入詞元 = 1 個詞元
1 個輸出詞元 = 5 個詞元
1 個快取寫入 5 分鐘詞元 = 1.25 個詞元
1 個快取寫入 1 小時詞元 = 2 個詞元
1 個快取命中詞元 = 0.1 個詞元

輸入詞元大於或等於 200,000 個:
1 個輸入詞元 = 2 個詞元
1 個輸出詞元 = 7.5 個詞元
1 個快取寫入 5 分鐘詞元 = 2.5 個詞元
1 個快取寫入 1 小時詞元 = 4 個詞元
1 個快取命中詞元 = 0.2 個詞元
Anthropic 的 Claude Opus 4.5 210 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Sonnet 4.5 350 25 1 輸入詞元少於 200,000 個:
1 個輸入詞元 = 1 個詞元
1 個輸出詞元 = 5 個詞元
1 個快取寫入 5 分鐘詞元 = 1.25 個詞元
1 個快取寫入 1 小時詞元 = 2 個詞元
1 個快取命中詞元 = 0.1 個詞元

輸入詞元大於或等於 200,000 個:
1 個輸入詞元 = 2 個詞元
1 個輸出詞元 = 7.5 個詞元
1 個快取寫入 5 分鐘詞元 = 2.5 個詞元
1 個快取寫入 1 小時詞元 = 4 個詞元
1 個快取命中詞元 = 0.2 個詞元
Anthropic 的 Claude Opus 4.1 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Haiku 4.5 1,050 8 1 輸入權杖少於 200,000 個:
1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Opus 4 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude Sonnet 4 350 25 1 輸入權杖少於 200,000 個:
1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖

輸入權杖大於或等於 200,000 個:
1 個輸入權杖 = 2 個權杖
1 個輸出權杖 = 7.5 個權杖
1 個快取寫入 5 分鐘權杖 = 2.5 個權杖
1 個快取寫入 1 小時權杖 = 4 個權杖
1 個快取命中權杖 = 0.2 個權杖
Anthropic 的 Claude 3.7 Sonnet (已淘汰) 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet v2 (已淘汰) 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Haiku (已淘汰) 2,000 10 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Opus 70 35 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3 Haiku (已淘汰) 4,200 5 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取寫入 1 小時權杖 = 2 個權杖
1 個快取命中權杖 = 0.1 個權杖
Anthropic 的 Claude 3.5 Sonnet (已淘汰) 350 25 1 1 個輸入權杖 = 1 個權杖
1 個輸出權杖 = 5 個權杖
1 個快取寫入 5 分鐘權杖 = 1.25 個權杖
1 個快取命中權杖 = 0.1 個權杖

如要瞭解支援的位置,請參閱「Anthropic Claude 區域適用情形」。如要訂購 Anthropic 模型適用的佈建輸送量,請與Google Cloud 帳戶代表聯絡。

開放式模型

下表列出支援佈建總處理量的開放模型的總處理量、購買增量和消耗率。

型號 每個 GSU 的處理量 (每秒權杖數) 最低 GSU 購買量 GSU 購買增量 燃盡率

DeepSeek-OCR

最新支援版本:deepseek-ocr-maas

3,360 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

DeepSeek-V3.2

最新支援版本:deepseek-v3.2-maas

1,680 1 1 1 個輸入文字詞元 = 1 個詞元
1 個輸出文字詞元 = 4 個詞元

Kimi K2 Thinking

最新支援版本:kimi-k2-thinking-maas

1,680 1 1 1 個輸入文字詞元 = 1 個詞元
1 個輸出文字詞元 = 4 個詞元

Llama 3.3 70B

最新支援版本:llama-3.3-70b-instruct-maas

1,400 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 1 個權杖

Llama 4 Maverick 17B-128E

最新支援版本:llama-4-maverick-17b-128e-instruct-maas

2,800 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Llama 4 Scout 17B-16E

最新支援版本:llama-4-scout-17b-16e-instruct-maas

4,035 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸入圖片權杖 = 1 個權杖
1 個輸出文字權杖 = 3 個權杖

MiniMax M2

最新支援版本:minimax-m2-maas

3,360 1 1 1 個輸入文字詞元 = 1 個詞元
1 個輸出文字詞元 = 4 個詞元

OpenAI gpt-oss 120B

最新支援版本:gpt-oss-120b-maas

11,205 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

OpenAI gpt-oss 20B

最新支援版本:gpt-oss-20b-maas

14,405 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Qwen3 235B

最新支援版本:qwen3-235b-a22b-instruct-2507-maas

4,035 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Qwen3 Coder

最新支援版本:qwen3-coder-480b-a35b-instruct-maas

1,010 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 4 個權杖

Qwen3-Next-80B Instruct

最新支援版本:qwen3-next-80b-a3b-instruct-maas

6,725 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 8 個權杖

Qwen3-Next-80B Thinking

最新支援版本:qwen3-next-80b-a3b-thinking-maas

6,725 1 1 1 個輸入文字權杖 = 1 個權杖
1 個輸出文字權杖 = 8 個權杖

Google 和開放式模型提供的功能

下表列出 Google 模型和開放模型可用的預先佈建輸送量功能:

功能 Google 模型 開放式模型 (預覽版)
透過 Google Cloud 控制台訂購
支援全域端點 請參閱「全球端點模型支援」。 請參閱「全球端點模型支援」。
支援監督式微調模型
支援使用 API 金鑰
隱含脈絡快取整合 不適用
整合明確的脈絡快取功能 不適用
機器學習處理 僅在特定地區推出。詳情請參閱「單一可用區佈建輸送量」。 不適用
可用的訂單條款 1 週、1 個月、3 個月和 1 年 1 週、1 個月、3 個月和 1 年
透過控制台變更訂單
訂單狀態:待審、已核准、有效、已過期
預設情況下,超出配額的用量會溢出至即付即用方案
API 標頭控制項:使用「專用」只使用佈建的輸送量,或使用「共用」只使用隨用隨付
監控指標資訊主頁快訊

支援全球端點模型

佈建的處理量支援 Google 模型和開放模型的全球端點

預設情況下,超出佈建處理量配額的流量會使用全域端點。

如要將佈建輸送量指派給模型的全域端點,請在下達佈建輸送量訂單時選取 global 做為區域。

支援全球端點的 Google 模型

下表列出「佈建輸送量」支援全域端點的 Google 模型:

型號 最新支援的模型版本
Gemini 3.1 Flash Image 預覽 gemini-3.1-flash-image-preview
Gemini 3.1 Pro 預先發布版 gemini-3.1-pro-preview
Gemini 3 Flash 預先發布版 gemini-3-flash-preview
Gemini 3 Pro 預先發布版 gemini-3-pro-preview
Gemini 3 Pro Image 預先發布版 gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash 預先發布版 gemini-2.5-flash-preview-09-2025
Gemini 2.5 Flash-Lite 預先發布版 gemini-2.5-flash-lite-preview-09-2025
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

支援全域端點的開放模型

下表列出可透過佈建輸送量支援全域端點的開放模型:

型號 最新支援的模型版本
DeepSeek-OCR deepseek-ocr-maas
DeepSeek-V3.2 deepseek-v3.2-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas

支援監督式微調模型

如果 Google 模型支援監督式微調,則支援下列項目:

  • 佈建輸送量可套用至基礎模型,以及這些基礎模型的監督式微調版本。

  • 監督式微調模型端點和對應的基礎模型會計入相同的佈建輸送量配額。

    舉例來說,為特定專案的 gemini-2.0-flash-lite-001 購買的佈建輸送量,會優先處理從該專案中建立的 gemini-2.0-flash-lite-001 監督式微調版本提出的要求。使用適當的標頭來控管流量行為。

後續步驟