Multi-Cluster-Inference-Gateway für GKE

Autopilot Standard

Das Multi-Cluster-Inference Gateway für Google Kubernetes Engine (GKE) führt einen Lastenausgleich für Ihre KI‑/ML-Inferenzarbeitslasten auf mehrere GKE-Cluster durch. Es integriert GKE-Multi-Cluster-Gateways für das clusterübergreifende Traffic-Routing mit Inference Gateway für die Bereitstellung von KI-/ML-Modellen. Diese Integration verbessert die Skalierbarkeit und Hochverfügbarkeit Ihrer Deployments. In diesem Dokument werden die wichtigsten Konzepte und Vorteile des Gateways erläutert.

Weitere Informationen zum Bereitstellen des GKE-Multi-Cluster-Inference Gateway finden Sie unter GKE-Multi-Cluster-Inference Gateway einrichten.

Um dieses Dokument zu verstehen, müssen Sie mit Folgendem vertraut sein:

KI‑/ML-Orchestrierung in GKE.
Terminologie für generative KI
GKE-Netzwerkkonzepte, einschließlich Dienste, GKE-Multi-Cluster-Gateway> und Gateway API.
Load-Balancing inGoogle Cloud, insbesondere die Interaktion von Load-Balancern mit GKE.

Dieses Dokument richtet sich an die folgenden Personen:

ML-Entwickler, Plattformadministratoren und ‑operatoren sowie Daten- und KI-Spezialisten, die daran interessiert sind, Kubernetes-Container-Orchestrierungsfunktionen für die Bereitstellung von KI‑/ML-Arbeitslasten zu nutzen.
Cloud-Architekten oder Netzwerkspezialisten, die mit Kubernetes-Netzwerken interagieren.

Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir inGoogle Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE Enterprise-Nutzerrollen und -Aufgaben.

Vorteile des GKE-Multi-Cluster-Inference-Gateways

Das GKE-Multi-Cluster-Inference-Gateway bietet mehrere Vorteile für die Verwaltung Ihrer KI/ML-Inferenzarbeitslasten, darunter:

Verbessert die Hochverfügbarkeit und Fehlertoleranz durch intelligentes Load-Balancing über mehrere GKE-Cluster hinweg, auch in verschiedenen geografischen Regionen. Ihre Inferenzarbeitslasten bleiben verfügbar und das System leitet Anfragen automatisch um, wenn in einem Cluster oder einer Region Probleme auftreten. So wird die Ausfallzeit minimiert.
Verbessert die Skalierbarkeit und optimiert die Ressourcennutzung, indem GPU- und TPU-Ressourcen aus verschiedenen Clustern zusammengefasst werden, um die erhöhte Nachfrage zu bewältigen. Durch diese Bündelung können Ihre Arbeitslasten die Kapazität eines einzelnen Clusters überschreiten und verfügbare Ressourcen in Ihrer Flotte effizient nutzen.
Die Leistung wird durch global optimiertes Routing maximiert. Das Gateway verwendet erweiterte Messwerte wie die Nutzung des Key-Value-Caches (KV-Cache) aus allen Clustern, um effiziente Routing-Entscheidungen zu treffen. So wird sichergestellt, dass Anfragen an den Cluster gesendet werden, der am besten für die Verarbeitung geeignet ist. Dadurch wird die Gesamtleistung Ihrer KI/ML-Inferenzflotte maximiert.

Beschränkungen

Für das GKE Multi-Cluster Inference Gateway gelten die folgenden Einschränkungen:

Model Armor-Einbindung: Das GKE Multi-Cluster Inference Gateway unterstützt keine Model Armor-Einbindung.
Latenzberichte für Envoy-Proxy: Der Envoy-Proxy meldet die Abfragelatenz nur für erfolgreiche (2xx) Anfragen. Fehler und Zeitüberschreitungen werden ignoriert. Dieses Verhalten kann dazu führen, dass der globale Server-Load-Balancer (GSLB) die tatsächliche Last auf fehlerhaften Backends unterschätzt und möglicherweise mehr Traffic an bereits überlastete Dienste weiterleitet. Konfigurieren Sie ein längeres Zeitlimit für Anfragen, um dieses Problem zu beheben. Es wird beispielsweise ein Wert von 600s empfohlen.

Schlüsselkomponenten

Das GKE-Multi-Cluster-Inference Gateway verwendet mehrere benutzerdefinierte Kubernetes-Ressourcen, um Inferenzarbeitslasten und das Traffic-Routing zu verwalten:

InferencePool: Gruppiert identische Modellserver-Back-Ends in Ihrem Zielcluster. Diese Ressource vereinfacht die Verwaltung und Skalierung Ihrer Instanzen für die Bereitstellung von Modellen.
InferenceObjective: Definiert Routing-Prioritäten für bestimmte Modelle innerhalb eines InferencePool. Durch dieses Routing wird sichergestellt, dass bestimmte Modelle entsprechend Ihren Anforderungen bevorzugt Traffic erhalten.
GCPInferencePoolImport: Macht Ihre Modell-Back-Ends für die Routingkonfiguration verfügbar, indem HTTPRoute im Konfigurationscluster verwendet wird. Diese Ressource wird automatisch in Ihrem Konfigurationscluster erstellt, wenn Sie ein InferencePool aus einem Zielcluster exportieren. Der Konfigurationscluster dient als zentraler Kontrollpunkt für Ihre Multi-Cluster-Umgebung.
GCPBackendPolicy: Hiermit wird angepasst, wie der Traffic auf Ihre Backends verteilt wird. Sie können beispielsweise den Lastenausgleich basierend auf benutzerdefinierten Messwerten aktivieren oder Grenzwerte für In-Flight-Anfragen pro Endpunkt festlegen, um Ihre Modellserver zu schützen.
AutoscalingMetric: Definiert benutzerdefinierte Messwerte wie vllm:kv_cache_usage_perc, die von Ihren Modellservern exportiert werden sollen. Anschließend können Sie diese Messwerte in GCPBackendPolicy verwenden, um intelligentere Entscheidungen zum Lastenausgleich zu treffen und die Leistung und Ressourcennutzung zu optimieren.

Funktionsweise des GKE-Multi-Cluster-Inference-Gateways

Das GKE Multi-Cluster Inference Gateway verwaltet und leitet Traffic an Ihre KI-/ML-Modelle weiter, die in mehreren GKE-Clustern bereitgestellt werden. Das funktioniert so:

Zentrale Trafficverwaltung:Ein dedizierter Konfigurationscluster definiert Ihre Traffic-Routingregeln. Der Konfigurationscluster dient als zentraler Kontrollpunkt für Ihre Multi-Cluster-Umgebung. Sie legen einen GKE-Cluster als Konfigurationscluster fest, wenn Sie Multi-Cluster-Ingress für Ihre Flotte aktivieren. Mit diesem zentralen Ansatz können Sie an einem Ort verwalten, wie Anfragen an Ihre Modelle in Ihrer gesamten Flotte von GKE-Clustern weitergeleitet werden.
Flexible Modellbereitstellung:Ihre tatsächlichen KI‑/ML‑Modelle werden in separaten Zielclustern ausgeführt. Durch diese Trennung können Sie Modelle dort bereitstellen, wo es am sinnvollsten ist, z. B. näher an den Daten oder an Clustern mit bestimmter Hardware.
Einfache Integration von Modellen:Wenn Sie ein Modell in einem Zielcluster bereitstellen, gruppieren Sie die zugehörigen Serving-Instanzen mit einem InferencePool. Wenn Sie InferencePool exportieren, ist es automatisch für das Routing in Ihrem Konfigurationscluster verfügbar.
Intelligenter Lastenausgleich:Das Gateway verteilt nicht nur den Traffic, sondern trifft auch intelligente Routing-Entscheidungen. Wenn Sie das Gateway so konfigurieren, dass es verschiedene Signale verwendet, einschließlich benutzerdefinierter Messwerte von Ihren Modellservern, können Sie dafür sorgen, dass eingehende Anfragen an den am besten ausgestatteten Cluster oder die am besten ausgestattete Modellinstanz gesendet werden. So lassen sich Leistung und Ressourcennutzung maximieren. Sie können beispielsweise Anfragen an den Cluster mit der größten verfügbaren Inferenzkapazität weiterleiten, basierend auf Messwerten wie der Nutzung des Key-Value-Caches (KV-Cache).

Nächste Schritte

Informationen zum Bereitstellen des Gateways finden Sie unter GKE-Multi-Cluster-Inference-Gateway einrichten.
Informationen zur Verwendung des Felds scopes in der Ressource GCPBackendPolicy finden Sie unter Backend-Konfigurationen mit GCPBackendPolicy-Bereichen anpassen.