在 GKE 上提供 AI 推論模型時的網路設定

Last reviewed 2026-05-20 UTC

本文提供參考架構,說明如何使用 Google Kubernetes Engine (GKE) 建立多模型推論服務。在架構中,GKE 代管的推論集區會放在 GKE Inference Gateway 後方。這項架構有以下優點:

  • 所有推論要求的單一介面。
  • 將每項要求智慧地傳送至最有效率的模型和推論伺服器。
  • 集中式授權、安全性和其他服務。

本文適用於負責統一部署在 GKE 中執行的推論伺服器的網路架構師。如果所有推論伺服器並非都託管在 GKE 中,請參閱「Networking for AI inference model serving on all backends」。本文不會提供應用程式設計或部署個別生成式 AI 模型的相關指引。如需模型部署指南,請參閱「在企業中建構及部署生成式 AI 和機器學習模型」。

此架構適用於應用程式網路架構「分散式應用程式適用的 Cross-Cloud Network」和其他設計。

架構

下圖顯示的架構包含 Inference Gateway,位於 GKE 代管的推論伺服器前方。這個閘道會為所有代管模型提供整合式服務。

AI 推論網路的高層級總覽。

圖中的架構包含下列元件:

  • Private Service Connect 推論端點:所有代管模型的統一端點。使用者會將推論要求傳送至端點 IP 位址。這張圖表顯示單一消費者虛擬私有雲 (VPC) 網路中的 Private Service Connect 端點。您可以在多個虛擬私有雲網路或共用服務虛擬私有雲網路中代管端點。
  • Inference Gateway:Inference Gateway 可強化 GKE Gateway,最佳化 GKE 提供生成式 AI 應用程式和工作負載的方式。並根據模型名稱將流量轉送至模型副本的推論集區。閘道會使用前置字串比對,在副本集區內轉送流量。如果沒有前置字元相符的項目,Gateway 推論處理器會使用 GPU 或 TPU Prometheus 指標,從集區中選取負載最少的副本。推論處理器也會處理前置字串快取。在這個架構中,面向客戶的應用程式會發出 OpenAI API 呼叫,透過 Gateway 存取模型。閘道是根據區域性內部應用程式負載平衡器 (gke-l7-rilb) 部署,因此無法直接從網際網路存取。
    • API 管理:API 管理工具提供 API 驗證、安全性、頻率限制、配額追蹤和其他 API 管理服務。這個架構使用 Apigee,但架構支援其他選項。如要從負載平衡器呼叫 Apigee,架構和 Terraform 部署作業會使用Service Extensions 流量擴充功能,呼叫 Apigee 擴充功能處理器
    • Model Armor: AI 防護機制系統,會在推論提示傳送至推論伺服器前,先執行安全檢查。然後對外送回覆執行安全檢查。這個架構使用 Model Armor 做為 AI 防護措施,但同時也支援其他選項,例如 NVIDIA Nemo Guardrails。本參考架構隨附的 Terraform 部署作業包含基本的 Model Armor 設定。
  • 推論集區:推論集區包含相同模型的副本。Gateway 收到提示後,會使用HTTPRoute查閱,根據模型 ID 選取推論集區。集區有初始大小,但可以設定為自動調度資源。
  • 模型副本集模型副本是部署至一或多個 GPU 或 TPU 的推論伺服器副本。模型副本可以是單一節點或多個節點。副本集是一組統一的模型副本,前端設有負載平衡器。如果副本集是多節點,GPU 會透過後端 RDMA 虛擬私有雲網路相互連線。這個網路提供符合軌道的 GPU 間無損低延遲網路。

要求流程

系統會依下列方式轉送推論要求:

  1. 使用者會將 OpenAI API 要求傳送至 Private Service Connect 端點。這項要求包含下列項目:
    • 提示。
    • 模型名稱,必須與其中一個代管推論伺服器的模型名稱相符。
  2. Private Service Connect 端點會將要求轉送至 Inference Gateway 的區域內部應用程式負載平衡器版本。
  3. 閘道會從要求主體擷取模型名稱,並使用以主體為準的轉送方式,將模型名稱插入要求標頭。
  4. Gateway 會將要求轉送至 API 管理系統,以取得所需的 API 管理服務。
  5. 閘道會將提示傳送至 Model Armor 進行篩選。
    • 如果提示包含無法遮蓋的機密資訊,系統會封鎖提示,Model Armor 會傳回回應,指出發現違反政策的內容。
    • 如果提示包含可遮蓋的私密資訊,或提示完全沒有問題,Model Armor 會遮蓋所有私密資訊,然後轉送提示。
  6. 閘道會查詢 HTTPRoute,取得符合要求模型的推論集區清單。閘道會根據優先順序,從這份清單中選擇一個。
  7. 閘道會查詢前置字元快取和集區中所有副本的目前負載,然後使用該資訊選擇副本。
  8. 副本會處理要求,並傳送回閘道。
  9. 閘道會將回覆傳送至 Model Armor,以供核准或拒絕。
  10. 閘道會將回應傳回 Private Service Connect 端點,並傳送給使用者。

下圖顯示範例部署作業的轉送檢視畫面。

提示流程,可對副本集進行取樣。

在本例中,系統會根據使用者選取的模型處理提示:

  • Llama:系統會在兩個副本集之間以 90/10 的比例平衡這些提示詞的負載,這兩個副本集都會代管 Llama 模型。這兩個副本集不必以相同方式代管。舉例來說,一個副本集可以託管在 Vertex AI,另一個副本集則託管在 GKE。
  • LoRA-1-gemma 或 LoRA-2-gemma:系統會將所有提示傳送至同一組副本,這組副本可處理這兩個模型。

在所有情況下,閘道都會結合前置字元比對和最低負載,在相關集區中選擇副本。

使用的產品

這項參考架構使用下列產品: Google Cloud

  • Google Kubernetes Engine (GKE):Kubernetes 服務,可讓您透過 Google 的基礎架構,大規模部署及操作容器化應用程式。
  • GKE Inference Gateway:Google Kubernetes Engine Gateway 的擴充功能,可為提供生成式 AI 工作負載提供最佳化的路由和負載平衡。可簡化 AI 推論工作負載的部署、管理和觀測作業。
  • 虛擬私有雲 (VPC):虛擬系統,可為 Google Cloud 工作負載提供全球性、可擴充的網路功能。虛擬私有雲包括虛擬私有雲網路對等互連、Private Service Connect、私人服務存取權和 Shared VPC。
  • Private Service Connect:這項功能可讓消費者從虛擬私有雲網路內部,以私密方式存取代管服務。
  • Cloud Run:無伺服器運算平台,可讓您在 Google 可擴充的基礎架構上直接執行容器。
  • Apigee:API 管理工具,可精細控管 API 的存取和使用方式。提供安全性、頻率限制、配額強制執行和數據分析功能。
  • Model Armor:這項服務可保護生成式和代理式 AI 資源,防範提示詞注入、敏感資料外洩和有害內容。

設計替代方案

本節說明這項架構部分基本假設的替代方案。

AI 防護機制

建議您使用 Model Armor 做為 AI 防護措施。為集中管理,建議您直接從負載平衡器呼叫,如這個架構所示。您也可以透過下列替代方式導入 Model Armor:

  • 使用 API 管理政策呼叫 Model Armor。
  • 僅在副本部署 Model Armor。

如果您在模型端點以外的位置實作 AI 防護機制,則可視需要關閉前端負載平衡器的 Model Armor。如果不想使用 Model Armor,可以運用流量擴充功能部署其他防護措施,例如 NVIDIA NeMo Guardrails

API 管理

本文架構使用 Apigee 進行 API 管理,並透過負載平衡器服務擴充功能部署。如果 Apigee 不符合您的需求,可以使用 Service Extensions 部署其他 API 管理服務。

如果使用 Service Extensions 部署 API 管理服務無法滿足您的需求,您可能需要部署面向用戶端的網路和面向 API 的網路。在本情境中,API 管理服務會做為兩個網路之間的橋樑。如要瞭解如何為 Apigee 部署這項功能,請參閱 Apigee 網路選項

連線至其他網路

本文中的架構使用單一消費者虛擬私有雲網路。不過,您可以在Cross-Cloud Network 部署中,使用服務存取虛擬私有雲網路,與許多其他網路共用 Private Service Connect 端點。

設計須知

建構工作負載架構時,請參考Google Cloud Well-Architected Framework的最佳做法和建議。

安全性、隱私權和法規遵循

如要為部署作業新增分散式阻斷服務 (DDoS) 攻擊防護、網頁應用程式防火牆 (WAF) 功能和 IP 位址檢查,請將 Google Cloud Armor 新增至前端區域內部應用程式負載平衡器。

可靠性

為避免區域性故障,請使用Google Cloud 多區域部署原型,將部署作業複製到第二個區域。

成本最佳化

如需 GKE 成本最佳化建議,請參閱「在 GKE 上執行最具成本效益的 Kubernetes 應用程式的最佳做法」。

提升作業效率

使用Inference Gateway 資訊主頁,監控 Inference Gateway 推論要求的成效。資訊主頁會顯示錯誤和指標,例如要求比率、延遲和飽和度。運用資訊主頁中的發現,最佳化部署作業

效能最佳化

請參閱 GKE 推論最佳做法總覽中的建議。

部署作業

如要部署這個架構的實作範例,請使用 GitHub 提供的「AI 推論模型服務的網路」程式碼範例。

後續步驟

貢獻者

作者:Victor Moreno | Cloud Networking 產品經理

其他貢獻者: