Google 模型
佈建輸送量僅支援您使用特定模型 ID (而非模型別名) 從專案直接呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001),而非模型版本別名。
此外,透過佈建輸送量呼叫的模型不支援其他 Vertex AI 產品,例如 Vertex AI Agents 和 Vertex AI Search。舉例來說,如果您在使用 Vertex AI Search 時對 Gemini 2.0 Flash 進行 API 呼叫,則 Gemini 2.0 Flash 的佈建輸送量訂單不會保證 Vertex AI Search 進行的呼叫。
佈建輸送量不支援批次預測呼叫。
下表列出支援佈建輸送量的 Google 模型,以及這些模型的輸送量、購買增量和消耗率。每秒處理量是指每秒所有要求中,提示輸入和生成的輸出內容。
如要瞭解工作負載所需的詞元數量,請參閱 SDK 分詞器或 countTokens API 的相關說明。
| 型號 | 每 GSU 的每秒總處理量 | 單位 | 最低 GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
|
最新支援版本: |
500 | 權杖 | 1 |
輸入權杖數少於或等於 200,000 個: 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出回應文字權杖 = 6 個權杖 1 個輸出推理文字權杖 = 6 個權杖 輸入權杖數超過 200,000 個: 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖 |
|
最新支援版本: |
500 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 6 個權杖 1 個輸出思考權杖 = 6 個權杖 1 個輸出圖片權杖 = 60 個權杖 |
|
最新支援版本: |
650 | 權杖 | 1 |
輸入權杖數少於或等於 200,000 個: 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出回應文字權杖 = 8 個權杖 1 個輸出推理文字權杖 = 8 個權杖 輸入權杖數超過 200,000 個: 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸出回應文字權杖 = 12 個權杖 1 個輸出推理文字權杖 = 12 個權杖 |
|
最新支援版本: |
2,690 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 9 個權杖 1 個輸出圖片權杖 = 100 個權杖 |
|
最新支援版本 (GA): 最新支援版本 (預覽版): |
2690 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 4 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖 |
|
最新支援版本 (GA): 最新支援版本 (預覽版): |
8,070 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 3 個權杖 1 個輸出回應文字權杖 = 4 個權杖 1 個輸出推理文字權杖 = 4 個權杖 |
Gemini 2.5 Flash with Live API 最新支援版本: |
1,620 | 權杖 | 1 | 1 個輸入文字權杖 = 1 個輸入文字權杖 1 個輸入音訊權杖 = 6 個輸入文字權杖 1 個輸入影片權杖 = 6 個輸入文字權杖 1 個輸入工作階段記憶體權杖 = 1 個輸入文字權杖 1 個輸出文字權杖 = 4 個輸入文字權杖 1 個輸出音訊權杖 = 24 個輸入文字權杖 |
|
Gemini 2.5 Flash with Live API native audio 最新支援版本: |
1,620 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入音訊權杖 = 6 個權杖 1 個輸入影片權杖 = 6 個權杖 1 個輸入圖片權杖 = 6 個權杖 1 個輸入工作階段記憶體權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 1 個輸出音訊權杖 = 24 個權杖 |
|
最新支援版本: |
3,360 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
6,720 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
最新支援版本: |
0.0040 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒輸出影片 + 音訊 = 2 秒輸出影片 | ||
最新支援版本: |
0.0080 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片 | ||
最新支援版本: |
0.0040 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片 + 音訊 = 2 秒的輸出影片 | ||
最新支援版本: |
0.0080 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片 | ||
|
|
0.015 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.02 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.04 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.02 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.025 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
| Imagen 3 Fast | 0.05 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
如要瞭解模型的功能和輸入/輸出限制,請參閱模型說明文件。
新機型推出後,你隨時可以升級。如要瞭解模型供應情形和停用日期,請參閱「Google 模型」。
如要進一步瞭解支援的地區,請參閱「適用地區」。
合作夥伴模型
下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的計量單位為每秒詞元數,定義為每秒所有要求中的輸入和輸出詞元總數。
| 型號 | 每 GSU 的輸送量 (每秒權杖數) | 最低 GSU 購買量 | GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
| Anthropic 的 Claude Opus 4.5 | 210 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Sonnet 4.5 | 350 | 25 | 1 | 輸入權杖少於 200,000 個: 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 輸入權杖大於或等於 200,000 個: 1 個輸入權杖 = 2 個權杖 1 個輸出權杖 = 7.5 個權杖 1 個快取寫入 5 分鐘權杖 = 2.5 個權杖 1 個快取寫入 1 小時權杖 = 4 個權杖 1 個快取命中權杖 = 0.2 個權杖 |
| Anthropic 的 Claude Opus 4.1 | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Haiku 4.5 | 1,050 | 8 | 1 | 輸入符記少於 200,000 個: 1 個輸入符記 = 1 個符記 1 個輸出符記 = 5 個符記 1 個快取寫入 5 分鐘符記 = 1.25 個符記 1 個快取寫入 1 小時符記 = 2 個符記 1 個快取命中符記 = 0.1 個符記 |
| Anthropic 的 Claude Opus 4 | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Sonnet 4 | 350 | 25 | 1 | 輸入權杖少於 200,000 個: 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 輸入權杖大於或等於 200,000 個: 1 個輸入權杖 = 2 個權杖 1 個輸出權杖 = 7.5 個權杖 1 個快取寫入 5 分鐘權杖 = 2.5 個權杖 1 個快取寫入 1 小時權杖 = 4 個權杖 1 個快取命中權杖 = 0.2 個權杖 |
| Anthropic 的 Claude 3.7 Sonnet (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3.5 Sonnet v2 (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3 Opus | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3 Haiku | 4,200 | 5 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3.5 Sonnet (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
如要瞭解支援的地區,請參閱「Anthropic Claude 地區適用情形」。如要訂購 Anthropic 模型適用的佈建輸送量,請與Google Cloud 帳戶代表聯絡。
開放式模型
下表列出支援佈建總處理量的開放模型的總處理量、購買增量和消耗率。
| 型號 | 每 GSU 的輸送量 (每秒權杖數) | 最低 GSU 購買量 | GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
|
最新支援版本: |
3,360 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
1,680 | 1 | 1 | 1 個輸入文字詞元 = 1 個權杖 1 個輸出文字詞元 = 4 個權杖 |
|
最新支援版本: |
1,400 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 1 個權杖 |
|
最新支援版本: |
2,800 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
4,035 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 3 個權杖 |
|
最新支援版本: |
3,360 | 1 | 1 | 1 個輸入文字詞元 = 1 個權杖 1 個輸出文字詞元 = 4 個權杖 |
|
最新支援版本: |
11,205 | 1 | 1 | 1 個輸入文字詞元 = 1 個權杖 1 個輸出文字詞元 = 4 個權杖 |
|
最新支援版本: |
14,405 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
4,035 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
1,010 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
6,725 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 8 個權杖 |
|
最新支援版本: |
6,725 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 8 個權杖 |
Google 和開放式模型提供的功能
下表列出 Google 模型和開放模型搭配佈建輸送量時可用的功能:
| 功能 | Google 模型 | 開放式模型 (預覽版) |
|---|---|---|
| 透過 Google Cloud 控制台訂購 | 是 | 是 |
| 支援全球端點 | 請參閱「全球端點模型支援」。 | 請參閱「全球端點模型支援」。 |
| 支援監督式微調模型 | 是 | 否 |
| 支援使用 API 金鑰 | 是 | 否 |
| 與隱含脈絡快取整合。 | 是 | 不適用 |
| 整合明確的脈絡快取功能 | 是 | 不適用 |
| 機器學習處理作業 | 僅在特定地區推出。詳情請參閱「單一可用區佈建輸送量」。 | 不適用 |
| 可用的訂單條款 | 1 週、1 個月、3 個月和 1 年 | 1 個月、3 個月和 1 年 |
| 透過控制台變更訂單 | 是 | 否 |
| 訂單狀態:待審、已核准、有效、已過期 | 是 | 是 |
| 預設情況下,超出配額的用量會溢出至即付即用方案 | 是 | 是 |
| API 標頭控制項:使用「專用」只使用佈建的輸送量,或使用「共用」只使用隨用隨付 | 是 | 是 |
| 監控:指標、資訊主頁和快訊 | 是 | 是 |
支援全球端點模型
佈建的處理量支援 Google 模型和開放模型的全球端點。
如果流量超出佈建處理量配額,系統預設會使用全域端點。
如要將佈建輸送量指派給模型的全域端點,請在下達佈建輸送量訂單時選取 global 做為區域。
支援全球端點的 Google 模型
下表列出「佈建輸送量」支援全域端點的 Google 模型:
| 型號 | 最新支援的模型版本 |
|---|---|
| Gemini 3 Pro (預先發布版) | gemini-3-pro-preview |
| Gemini 3 Pro Image (預先發布版) | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash | |
| Gemini 2.5 Flash-Lite | |
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
支援全域端點的開放模型
下表列出可透過全球端點使用佈建輸送量的開放模型:
| 型號 | 最新支援的模型版本 |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
支援監督式微調模型
如果 Google 模型支援監督式微調,則支援下列項目:
佈建輸送量可套用至基礎模型,以及這些基礎模型的監督式微調版本。
監督式微調模型端點和對應的基礎模型會計入相同的佈建輸送量配額。
舉例來說,如果為特定專案的
gemini-2.0-flash-lite-001購買佈建輸送量,系統會優先處理該專案中,透過受監管的微調版gemini-2.0-flash-lite-001提出的要求。使用適當的標頭來控管流量行為。