下表列出支援預先佈建處理量的模型、每個生成式 AI 擴充單元 (GSU) 的處理量,以及每個模型的消耗率。
Google 模型
佈建輸送量僅支援您使用特定模型 ID (而非模型別名),直接從專案呼叫的模型。如要使用預先佈建的輸送量對模型發出 API 呼叫,您必須使用特定模型版本 ID (例如 gemini-2.0-flash-001),而非模型版本別名。
雖然「預先佈建的輸送量」可確保模型要求容量,但不會納入或略過您可能使用的其他工具配額,例如基礎。視工作負載大小而定,您可能需要另外申請這些工具的額外配額。
此外,透過其他 Vertex AI 產品 (例如 Vertex AI Agents 和 Vertex AI Search) 呼叫的模型,不支援佈建輸送量。舉例來說,如果您在使用 Vertex AI Search 時,對 Gemini 2.0 Flash 進行 API 呼叫,則 Gemini 2.0 Flash 的佈建輸送量訂單無法保證 Vertex AI Search 進行的呼叫。
佈建輸送量不支援批次預測呼叫。
下表列出支援佈建輸送量的 Google 模型,以及這些模型的輸送量、購買增量和消耗率。每秒處理量是指每秒所有要求中的提示輸入和生成輸出。
如要瞭解工作負載所需的詞元數量,請參閱 SDK 分詞器或 countTokens API 的相關說明。
| 型號 | 每 GSU 的每秒總處理量 | 單位 | 最低 GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
|
最新支援版本: |
2015 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 6 個權杖 1 個輸出圖片權杖 = 120 個權杖 |
|
最新支援版本: |
500 | 權杖 | 1 |
輸入權杖數小於或等於 200,000 個: 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸入快取權杖 = 0.1 個權杖 1 個輸出回應文字權杖 = 6 個權杖 1 個輸出推理文字權杖 = 6 個權杖 輸入權杖數大於 200,000 個: 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸入快取權杖 = 0.2 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖 |
|
最新支援版本: |
2015 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸入文字、圖片、影片快取權杖 = 0.1 個權杖 1 個輸入音訊快取權杖 = 0.2 個權杖 1 個輸出回應文字權杖 = 6 個權杖 1 個輸出推理文字權杖 = 6 個權杖 |
|
最新支援版本: |
500 | 權杖 | 1 |
輸入權杖數少於或等於 200,000 個: 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出回應文字權杖 = 6 個權杖 1 個輸出推理文字權杖 = 6 個權杖 輸入權杖數超過 200,000 個: 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖 |
|
最新支援版本: |
500 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 6 個權杖 1 個輸出思考權杖 = 6 個權杖 1 個輸出圖片權杖 = 60 個權杖 |
|
最新支援版本: |
650 | 權杖 | 1 |
輸入權杖數小於或等於 200,000 個: 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 1 個權杖 1 個輸出回應文字權杖 = 8 個權杖 1 個輸出推理文字權杖 = 8 個權杖 輸入權杖數大於 200,000 個: 1 個輸入文字權杖 = 2 個權杖 1 個輸入圖片權杖 = 2 個權杖 1 個輸入影片權杖 = 2 個權杖 1 個輸入音訊權杖 = 2 個權杖 1 個輸出回應文字權杖 = 12 個權杖 1 個輸出推理文字權杖 = 12 個權杖 |
|
最新支援版本: |
2,690 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 9 個權杖 1 個輸出圖片權杖 = 100 個權杖 |
|
最新支援版本: |
2690 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 4 個權杖 1 個輸出回應文字權杖 = 9 個權杖 1 個輸出推理文字權杖 = 9 個權杖 |
|
最新支援版本 (GA): 最新支援版本 (搶先版): |
8,070 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 3 個權杖 1 個輸出回應文字權杖 = 4 個權杖 1 個輸出推理文字權杖 = 4 個權杖 |
|
Gemini 2.5 Flash,搭配 Gemini Live API 原生音訊 最新支援版本: |
1,620 | 權杖 | 1 |
1 個輸入文字詞元 = 1 個詞元 1 個輸入音訊詞元 = 6 個詞元 1 個輸入影片詞元 = 6 個詞元 1 個輸入圖片詞元 = 6 個詞元 1 個輸入工作階段記憶體詞元 = 1 個詞元 1 個輸出文字詞元 = 4 個詞元 1 個輸出音訊詞元 = 24 個詞元 |
|
最新支援版本: |
3,360 | 權杖 | 1 |
1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸入影片權杖 = 1 個權杖 1 個輸入音訊權杖 = 7 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
6,720 | 權杖 | 1 |
1 個輸入文字符記 = 1 個符記 1 個輸入圖片符記 = 1 個符記 1 個輸入影片符記 = 1 個符記 1 個輸入音訊符記 = 1 個符記 1 個輸出文字符記 = 4 個符記 |
最新支援版本: |
0.0040 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片 + 音訊 = 2 秒的輸出影片 | ||
最新支援版本: |
0.0080 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片 | ||
最新支援版本: |
0.0040 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片 + 音訊 = 2 秒的輸出影片 | ||
最新支援版本: |
0.0080 | 影片秒數 | 1 | 1 秒輸出影片 = 1 秒輸出影片 |
| 影片和音訊秒數 | 1 | 1 秒的輸出影片和音訊 = 1.45 秒的輸出影片 | ||
|
|
0.02 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.015 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.02 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.04 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.02 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
|
|
0.025 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
| Imagen 3 Fast | 0.05 | 圖片 | 1 | 只有輸出圖片會計入佈建輸送量配額。 |
如要瞭解模型的功能和輸入/輸出限制,請參閱模型說明文件。
新機型推出後,你隨時可以升級。如要瞭解模型供應情形和停用日期,請參閱「Google 模型」一文。
如要進一步瞭解支援的地區,請參閱「適用地區」。
合作夥伴模型
下表列出支援佈建處理量的合作夥伴模型的處理量、購買增量和消耗率。Claude 模型的計費單位為每秒詞元數,也就是每秒所有要求中輸入和輸出詞元的總數。
| 型號 | 每個 GSU 的處理量 (每秒權杖數) | 最低 GSU 購買量 | GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
| Anthropic 的 Claude Sonnet 4.6 | 350 | 25 | 1 | 輸入詞元少於 200,000 個: 1 個輸入詞元 = 1 個詞元 1 個輸出詞元 = 5 個詞元 1 個快取寫入 5 分鐘詞元 = 1.25 個詞元 1 個快取寫入 1 小時詞元 = 2 個詞元 1 個快取命中詞元 = 0.1 個詞元 輸入詞元大於或等於 200,000 個: 1 個輸入詞元 = 2 個詞元 1 個輸出詞元 = 7.5 個詞元 1 個快取寫入 5 分鐘詞元 = 2.5 個詞元 1 個快取寫入 1 小時詞元 = 4 個詞元 1 個快取命中詞元 = 0.2 個詞元 |
| Anthropic 的 Claude Opus 4.6 | 210 | 35 | 1 | 輸入詞元少於 200,000 個: 1 個輸入詞元 = 1 個詞元 1 個輸出詞元 = 5 個詞元 1 個快取寫入 5 分鐘詞元 = 1.25 個詞元 1 個快取寫入 1 小時詞元 = 2 個詞元 1 個快取命中詞元 = 0.1 個詞元 輸入詞元大於或等於 200,000 個: 1 個輸入詞元 = 2 個詞元 1 個輸出詞元 = 7.5 個詞元 1 個快取寫入 5 分鐘詞元 = 2.5 個詞元 1 個快取寫入 1 小時詞元 = 4 個詞元 1 個快取命中詞元 = 0.2 個詞元 |
| Anthropic 的 Claude Opus 4.5 | 210 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Sonnet 4.5 | 350 | 25 | 1 | 輸入詞元少於 200,000 個: 1 個輸入詞元 = 1 個詞元 1 個輸出詞元 = 5 個詞元 1 個快取寫入 5 分鐘詞元 = 1.25 個詞元 1 個快取寫入 1 小時詞元 = 2 個詞元 1 個快取命中詞元 = 0.1 個詞元 輸入詞元大於或等於 200,000 個: 1 個輸入詞元 = 2 個詞元 1 個輸出詞元 = 7.5 個詞元 1 個快取寫入 5 分鐘詞元 = 2.5 個詞元 1 個快取寫入 1 小時詞元 = 4 個詞元 1 個快取命中詞元 = 0.2 個詞元 |
| Anthropic 的 Claude Opus 4.1 | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Haiku 4.5 | 1,050 | 8 | 1 | 輸入權杖少於 200,000 個: 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Opus 4 | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude Sonnet 4 | 350 | 25 | 1 | 輸入權杖少於 200,000 個: 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 輸入權杖大於或等於 200,000 個: 1 個輸入權杖 = 2 個權杖 1 個輸出權杖 = 7.5 個權杖 1 個快取寫入 5 分鐘權杖 = 2.5 個權杖 1 個快取寫入 1 小時權杖 = 4 個權杖 1 個快取命中權杖 = 0.2 個權杖 |
| Anthropic 的 Claude 3.7 Sonnet (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3.5 Sonnet v2 (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3.5 Haiku (已淘汰) | 2,000 | 10 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3 Opus | 70 | 35 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3 Haiku (已淘汰) | 4,200 | 5 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取寫入 1 小時權杖 = 2 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
| Anthropic 的 Claude 3.5 Sonnet (已淘汰) | 350 | 25 | 1 | 1 個輸入權杖 = 1 個權杖 1 個輸出權杖 = 5 個權杖 1 個快取寫入 5 分鐘權杖 = 1.25 個權杖 1 個快取命中權杖 = 0.1 個權杖 |
如要瞭解支援的位置,請參閱「Anthropic Claude 區域適用情形」。如要訂購 Anthropic 模型適用的佈建輸送量,請與Google Cloud 帳戶代表聯絡。
開放式模型
下表列出支援佈建總處理量的開放模型的總處理量、購買增量和消耗率。
| 型號 | 每個 GSU 的處理量 (每秒權杖數) | 最低 GSU 購買量 | GSU 購買增量 | 燃盡率 |
|---|---|---|---|---|
|
最新支援版本: |
3,360 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
1,680 | 1 | 1 | 1 個輸入文字詞元 = 1 個詞元 1 個輸出文字詞元 = 4 個詞元 |
|
最新支援版本: |
1,680 | 1 | 1 | 1 個輸入文字詞元 = 1 個詞元 1 個輸出文字詞元 = 4 個詞元 |
|
最新支援版本: |
1,400 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 1 個權杖 |
|
最新支援版本: |
2,800 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
4,035 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸入圖片權杖 = 1 個權杖 1 個輸出文字權杖 = 3 個權杖 |
|
最新支援版本: |
3,360 | 1 | 1 | 1 個輸入文字詞元 = 1 個詞元 1 個輸出文字詞元 = 4 個詞元 |
|
最新支援版本: |
11,205 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
14,405 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
4,035 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
1,010 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 4 個權杖 |
|
最新支援版本: |
6,725 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 8 個權杖 |
|
最新支援版本: |
6,725 | 1 | 1 | 1 個輸入文字權杖 = 1 個權杖 1 個輸出文字權杖 = 8 個權杖 |
Google 和開放式模型提供的功能
下表列出 Google 模型和開放模型可用的預先佈建輸送量功能:
| 功能 | Google 模型 | 開放式模型 (預覽版) |
|---|---|---|
| 透過 Google Cloud 控制台訂購 | 是 | 是 |
| 支援全域端點 | 請參閱「全球端點模型支援」。 | 請參閱「全球端點模型支援」。 |
| 支援監督式微調模型 | 是 | 否 |
| 支援使用 API 金鑰 | 是 | 否 |
| 與隱含脈絡快取整合 | 是 | 不適用 |
| 整合明確的脈絡快取功能 | 是 | 不適用 |
| 機器學習處理 | 僅在特定地區推出。詳情請參閱「單一可用區佈建輸送量」。 | 不適用 |
| 可用的訂單條款 | 1 週、1 個月、3 個月和 1 年 | 1 週、1 個月、3 個月和 1 年 |
| 透過控制台變更訂單 | 是 | 否 |
| 訂單狀態:待審、已核准、有效、已過期 | 是 | 是 |
| 預設情況下,超出配額的用量會溢出至即付即用方案 | 是 | 是 |
| API 標頭控制項:使用「專用」只使用佈建的輸送量,或使用「共用」只使用隨用隨付 | 是 | 是 |
| 監控:指標、資訊主頁和快訊 | 是 | 是 |
支援全球端點模型
佈建的處理量支援 Google 模型和開放模型的全球端點。
預設情況下,超出佈建處理量配額的流量會使用全域端點。
如要將佈建輸送量指派給模型的全域端點,請在下達佈建輸送量訂單時選取 global 做為區域。
支援全球端點的 Google 模型
下表列出「佈建輸送量」支援全域端點的 Google 模型:
| 型號 | 最新支援的模型版本 |
|---|---|
| Gemini 3.1 Flash Image 預覽 | gemini-3.1-flash-image-preview |
| Gemini 3.1 Pro 預先發布版 | gemini-3.1-pro-preview |
| Gemini 3 Flash 預先發布版 | gemini-3-flash-preview |
| Gemini 3 Pro 預先發布版 | gemini-3-pro-preview |
| Gemini 3 Pro Image 預先發布版 | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash 預先發布版 | gemini-2.5-flash-preview-09-2025 |
| Gemini 2.5 Flash-Lite 預先發布版 | gemini-2.5-flash-lite-preview-09-2025 |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash | gemini-2.5-flash |
| Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite |
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
支援全域端點的開放模型
下表列出可透過佈建輸送量支援全域端點的開放模型:
| 型號 | 最新支援的模型版本 |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| DeepSeek-V3.2 | deepseek-v3.2-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
支援監督式微調模型
如果 Google 模型支援監督式微調,則支援下列項目:
佈建輸送量可套用至基礎模型,以及這些基礎模型的監督式微調版本。
監督式微調模型端點和對應的基礎模型會計入相同的佈建輸送量配額。
舉例來說,為特定專案的
gemini-2.0-flash-lite-001購買的佈建輸送量,會優先處理從該專案中建立的gemini-2.0-flash-lite-001監督式微調版本提出的要求。使用適當的標頭來控管流量行為。