關於 GKE 多叢集 Inference Gateway

自動駕駛標準

Google Kubernetes Engine (GKE) 多叢集推論閘道會在多個 GKE 叢集之間，對 AI/機器學習推論工作負載進行負載平衡。這項服務整合了 GKE 多叢集閘道，可透過推論閘道進行跨叢集流量轉送，以提供 AI/機器學習模型服務。這項整合可提升部署作業的擴充性和高可用性。本文說明閘道的核心概念和優點。

如要進一步瞭解如何部署 GKE 多叢集推論閘道，請參閱「設定 GKE 多叢集推論閘道」。

如要瞭解本文內容，您必須熟悉下列事項：

本文件適用於下列角色：

機器學習 (ML) 工程師、平台管理員和營運人員，以及有興趣使用 Kubernetes 容器自動化調度管理功能，提供 AI/ML 工作負載服務的資料和 AI 專家。
與 Kubernetes 網路互動的雲端架構師或網路專家。

如要進一步瞭解我們在Google Cloud 內容中提及的常見角色和範例工作，請參閱「常見的 GKE Enterprise 使用者角色和工作」。

GKE 多叢集 Inference Gateway 的優點

GKE 多叢集推論閘道可提供多項優勢，協助您管理 AI/機器學習推論工作負載，包括：

透過在多個 GKE 叢集 (甚至跨不同地理區域) 之間進行智慧型負載平衡，提升高可用性和容錯能力。推論工作負載仍可使用，且如果叢集或區域發生問題，系統會自動重新導向要求，盡量縮短停機時間。
從各個叢集匯集 GPU 和 TPU 資源，以因應需求增加的情況，藉此提升擴充性並最佳化資源用量。透過這種集區，工作負載可超出單一叢集的容量，並有效運用機群中的可用資源。
透過全球最佳化路線規劃功能，盡可能提升成效。閘道會使用進階指標 (例如所有叢集的鍵/值 (KV) 快取用量)，做出有效率的路由決策。這種做法可確保要求傳送至最適合處理的叢集，進而盡可能提升 AI/機器學習推論機群的整體效能。

限制

GKE 多叢集 Inference Gateway 有以下限制：

整合 Model Armor：GKE 多叢集推論閘道不支援整合 Model Armor。
Envoy Proxy 延遲時間報表：Envoy Proxy 只會回報成功 (2xx) 要求的查詢延遲時間。系統會忽略錯誤和逾時。這種行為可能會導致全域伺服器負載平衡器 (GSLB) 低估失敗後端的實際負載，進而將更多流量導向已超載的服務。如要解決這個問題，請設定較長的請求逾時時間。例如，建議值為 600s。

重要元件

GKE 多叢集 Inference Gateway 使用多個 Kubernetes 自訂資源來管理推論工作負載和流量路徑：

InferencePool：在目標叢集中，將相同的模型伺服器後端分組。這個資源可簡化模型服務執行個體的管理和擴充作業。
InferenceObjective：定義 InferencePool 中特定模型的轉送優先順序。這項功能可確保特定模型根據您的需求，獲得偏好的流量。
GCPInferencePoolImport：在設定叢集中使用 HTTPRoute，讓模型後端可供轉送設定使用。從目標叢集匯出 InferencePool 時，系統會在設定叢集中自動建立這項資源。設定叢集是多叢集環境的中央控制點。
GCPBackendPolicy：自訂流量負載平衡至後端的設定。舉例來說，您可以根據自訂指標啟用負載平衡，或為每個端點設定處理中要求的限制，保護模型伺服器。
AutoscalingMetric：定義要從模型伺服器匯出的自訂指標，例如 vllm:kv_cache_usage_perc。然後，您可以在 GCPBackendPolicy 中使用這些指標，做出更明智的負載平衡決策，並提升效能和資源使用率。

GKE 多叢集推論閘道的運作方式

GKE 多叢集推論閘道會管理流量，並將流量轉送至部署在多個 GKE 叢集中的 AI/ML 模型。運作方式如下：

集中式流量管理：專屬的設定叢集會定義流量轉送規則。設定叢集是多叢集環境的中央控制點。為機群啟用多叢集 Ingress 時，您會將 GKE 叢集指定為設定叢集。這個集中式方法可讓您從單一位置，管理要求在整個 GKE 叢集機群中導向模型的方式。
彈性模型部署：實際的 AI/機器學習模型會在個別的目標叢集中執行。這種分離方式可讓您在最合適的位置部署模型 (例如更靠近資料或具有特定硬體的叢集)。
輕鬆整合模型：在目標叢集中部署模型時，您可以使用 InferencePool 將模型的服務執行個體分組。匯出這個項目 InferencePool會自動在設定叢集中提供路由。
智慧型負載平衡：閘道不僅會分配流量，還會做出智慧型轉送決策。您可以設定閘道使用各種信號，包括模型伺服器中的自訂指標，確保傳入的要求會傳送至最合適的叢集或模型例項，進而盡可能提升效能和資源使用率。舉例來說，您可以根據鍵/值 (KV) 快取用量等指標，將要求轉送至可用推論容量最多的叢集。

後續步驟

如要部署閘道，請參閱「設定 GKE 多叢集推論閘道」。
如要瞭解如何在 GCPBackendPolicy 資源中使用 scopes 欄位，請參閱「使用 GCPBackendPolicy 範圍自訂後端設定」。