Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Load-Balancing-Strategie für die KI-/ML-Modellinferenz in GKE auswählen

Autopilot Standard

Auf dieser Seite erfahren Sie, wie Sie die geeignete Load-Balancing-Strategie für KI-/ML-Modellinferenz-Arbeitslasten in Google Kubernetes Engine (GKE) auswählen.

Diese Seite richtet sich an folgende Nutzer:

Entwickler für maschinelles Lernen (ML), Plattformadministratoren und ‑operatoren sowie Daten- und KI-Spezialisten, die daran interessiert sind, Kubernetes-Container-Orchestrierungsfunktionen für die Bereitstellung von KI‑/ML-Arbeitslasten zu nutzen.
Cloud-Architekten und Netzwerkspezialisten, die mit Kubernetes-Netzwerken interagieren.

Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir inGoogle Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Bevor Sie diese Seite lesen, sollten Sie mit Folgendem vertraut sein:

Wenn Sie KI-/ML-Modellinferenz-Arbeitslasten in GKE bereitstellen, wählen Sie die richtige Load-Balancing-Strategie aus, um Leistung, Skalierbarkeit und Kosteneffizienz zu optimieren:

Wählen Sie das GKE Inference Gateway aus, um das Routing und Load Balancing für die Bereitstellung von KI-/ML-Arbeitslasten zu optimieren.
Wählen Sie GKE Gateway mit benutzerdefinierten Messwerten aus. Dabei werden Application Load Balancer verwendet. Diese Option bietet eine Steuerung für allgemeine Zwecke und ermöglicht es Ihnen, die Trafficverteilung basierend auf Messwerten zu konfigurieren, die für Ihre Anwendungs- oder Infrastrukturanforderungen spezifisch sind.

GKE Inference Gateway – Übersicht

Das GKE Inference Gateway optimiert und verwaltet anspruchsvolle Arbeitslasten für generative KI (GenAI) und komplexe Large Language Model (LLM)-Inferenz. Sie erweitert die GKE Gateway API und bietet mehrere entscheidende Vorteile:

Intelligentes, KI-bezogenes Routing:GKE Inference Gateway überwacht wichtige KI-spezifische Messwerte, darunter:
- KV-Cache-Auslastung des Modellservers
- Länge der Warteschlange für ausstehende Anfragen
- Gesamte GPU-/TPU-Auslastung
- Verfügbarkeit von LoRA-Adaptern
- Die Rechenkosten einzelner Anfragen: Anhand dieser Messwerte verteilt das Gateway den Traffic intelligent auf das am besten geeignete und am wenigsten ausgelastete Modellserverreplikat.
Anfragepriorisierung:Das Gateway bietet Mechanismen zur Priorisierung von Anfragen.
Optimiertes Autoscaling:Das Gateway bietet optimierte Autoscaling-Mechanismen für Modellserver.

GKE Gateway mit benutzerdefinierten Messwerten – Übersicht

Google Cloud bietet Application Load Balancer-Ressourcen, die Bereiche wie global extern und regional extern unterstützen. Diese Load-Balancer für allgemeine Zwecke verteilen den Traffic basierend auf benutzerdefinierten Messwerten, die von Ihren Backend-Diensten gemeldet werden. Dieser Ansatz bietet eine detaillierte Kontrolle über die Lastverteilung, sodass Sie sie auf anwendungsspezifischen Leistungsindikatoren basieren können.

GKE Inference Gateway und GKE Gateway mit benutzerdefinierten Messwerten vergleichen

In der folgenden Tabelle können Sie die Funktionen von GKE Inference Gateway und GKE Gateway mit benutzerdefinierten Messwerten vergleichen und die richtige Load-Balancing-Lösung für Ihre KI‑/ML-Inferenzarbeitslasten in GKE auswählen.

Funktion	GKE Inference Gateway	GKE Gateway mit benutzerdefinierten Messwerten (über Application Load Balancer)
Primärer Anwendungsfall	Optimiert generative KI- und ML-Inferenz-Arbeitslasten in Kubernetes, einschließlich der Bereitstellung von Large Language Models (LLMs). Sie trägt dazu bei, einen fairen Zugriff auf Modellressourcen zu gewährleisten und latenzempfindliche, GPU- oder TPU-basierte LLM-Arbeitslasten zu optimieren.	Bietet Load-Balancing für allgemeine Zwecke für HTTP(S) und verteilt den Traffic basierend auf benutzerdefinierten, von der Anwendung gemeldeten Messwerten. Dieser Lastenausgleich ist ideal für latenzempfindliche Dienste wie Echtzeit-Gaming-Server oder Hochfrequenzhandelsplattformen, die benutzerdefinierte Auslastungsdaten melden.
Einfaches Routing	Unterstützt das standardmäßige HTTP(S)-Routing basierend auf Host und Pfad und erweitert die GKE Gateway API.	Unterstützt das standardmäßige HTTP(S)-Routing basierend auf Host und Pfad. Sie konfigurieren dies mit den Standardressourcen der GKE Gateway API.
Erweiterte Routing-Logik	Bietet erweiterte Funktionen wie modellbasiertes Routing, Traffic-Aufteilung, Spiegelung und die Anwendung von Prioritäts- und Kritikalitätsstufen auf Anfragen.	Gleicht den Traffic auf der Grundlage benutzerdefinierter Messwerte aus, die von der Anwendung über den ORCA-Standard (Open Request Cost Aggregation) gemeldet werden. Dadurch werden Richtlinien wie `WEIGHTED_ROUND_ROBIN` für die Gewichtung von Endpunkten innerhalb eines Standorts aktiviert.
Unterstützte Messwerte	Es werden eine Reihe von nativen, KI-spezifischen Messwerten verwendet, z. B. GPU- oder TPU-Auslastung, KV-Cache-Treffer und Länge der Warteschlange für Anfragen. Es kann auch so konfiguriert werden, dass es Anwendungsberichts-Messwerte über einen standardisierten HTTP-Header-Mechanismus verwendet.	Beruht auf von der Anwendung gemeldeten Messwerten, die einen standardisierten HTTP-Headermechanismus verwenden, insbesondere ORCA-Lastberichte (Open Request Cost Aggregation). Dieser Mechanismus unterstützt Standardmesswerte wie CPU und Arbeitsspeicher sowie benutzerdefinierte Messwerte für anwendungsspezifische eingeschränkte Ressourcen.
Anfragen verarbeiten	Entwickelt für die Verarbeitung von Arbeitslasten mit nicht einheitlichen Anfragekosten, die bei LLMs aufgrund unterschiedlicher Prompt-Komplexitäten üblich sind. Es unterstützt Kritikalitätsstufen für Anfragen, sodass verschiedene Arten von Inferenzanfragen priorisiert werden können.	Am besten geeignet für Arbeitslasten, bei denen einzelne Anfragen relativ einheitliche Verarbeitungskosten haben. Diese Lösung enthält keine nativen Funktionen zur Priorisierung von Anfragen.
Unterstützung von LoRA-Adaptern	Bietet natives, affinitätsbasiertes Routing zu Backends mit bestimmten LoRa-Adaptern, wodurch Anfragen an die entsprechenden Ressourcen weitergeleitet werden.	Bietet keine native Unterstützung für LoRa-Adapter oder affinitätsbasiertes Routing basierend auf LoRa-Konfigurationen.
Autoscaling-Integration	Optimiert das Autoscaling für Modellserver, indem KI-spezifische Messwerte wie die KV-Cache-Auslastung verwendet werden, um fundiertere Skalierungsentscheidungen zu treffen.	Integration in das horizontale Pod-Autoscaling (HPA) über benutzerdefinierte Messwerte. Diese Messwerte werden an den Application Load Balancer gemeldet und werden auf allgemeine Weise für die Skalierung verwendet, basierend auf den gemeldeten Lastsignalen.
Einrichtung und Konfiguration	Konfigurieren Sie sie mit der GKE Gateway API. Erweitert die Standard-API mit speziellen benutzerdefinierten Ressourcendefinitionen (Custom Resource Definitions, CRDs) für `InferencePool` und `InferenceModel`, um die KI-basierten Funktionen zu aktivieren.	Sie konfigurieren diese Lösung mit den Standardressourcen der GKE Gateway API. Die Anwendung muss einen HTTP-Header-basierten Mechanismus wie Open Request Cost Aggregation (ORCA) implementieren, um benutzerdefinierte Messwerte für das Load-Balancing zu melden.
Sicherheit	Diese Lösung umfasst die Filterung von KI-Inhalten mit Model Armor auf Gateway-Ebene. Außerdem werden grundlegende GKE-Sicherheitsfunktionen wie TLS, Identity and Access Management (IAM), rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) und Namespaces genutzt.	Diese Lösung verwendet den standardmäßigen Sicherheits-Stack für Application Load Balancer, der Google Cloud Armor, TLS-Terminierung und IAM umfasst. Um die KI-Inhaltsfilterung zu aktivieren, können Sie Google Cloud Armor als Service Extension einbinden.
Beobachtbarkeit	Bietet integrierte Beobachtbarkeit für KI-spezifische Messwerte, einschließlich GPU- oder TPU-Auslastung, KV-Cache-Treffer, Länge der Warteschlange für Anfragen und Modelllatenz.	Die Observability hängt von allen benutzerdefinierten Messwerten ab, für die die Anwendung konfiguriert ist. Sie können diese in Cloud Monitoring aufrufen. Dazu können Standardmesswerte oder benutzerdefinierte Messwerte gehören.
Erweiterbarkeit	Die Lösung basiert auf einer erweiterbaren Open-Source-Grundlage, die einen vom Nutzer verwalteten Endpoint Picker-Algorithmus ermöglicht. Sie erweitert die GKE Gateway API mit speziellen [benutzerdefinierten Ressourcendefinitionen (CRDs)](/kubernetes-engine/docs/how-to/deploy-gke-inference-gateway), z. B. `InferencePool` und `InferenceModel`, um gängige KI-Anwendungsfälle zu vereinfachen.	Sie sind flexibel und ermöglichen es Ihnen, das Load Balancing mit einem beliebigen [benutzerdefinierten Messwert (Lastsignal)](/load-balancing/docs/https/applb-custom-metrics) zu erweitern, den die Anwendung mit dem ORCA-Standard meldet.
Startphase	AV	AV

Wann sollte GKE Inference Gateway verwendet werden?

Wählen Sie das GKE Inference Gateway aus, um anspruchsvolle KI- und ML-Inferenz-Arbeitslasten in GKE zu optimieren, insbesondere für Large Language Models (LLMs). Wir empfehlen diese Lösung in den folgenden Situationen:

Bereitstellung von LLMs:Wenn Sie Modellserver wie vLLM verwenden, benötigen Sie Routingentscheidungen, die auf LLM-spezifischen Status basieren, z. B. auf der KV-Cache-Nutzung oder der Länge der Warteschlange für Anfragen.
Modelle mit LoRA-Adaptern bereitstellen:Sie benötigen ein intelligentes, affinitätsbasiertes Routing zu Back-Ends, die mit den richtigen und verfügbaren LoRA-Adaptern ausgestattet sind.
Verarbeiten von Inferenzanfragen mit stark variablen Verarbeitungskosten:Dynamische Promptgrößen oder ‑komplexität erfordern beispielsweise einen kostenbewussten Load Balancer.
Anfragepriorisierung implementieren:Sie müssen verschiedene Klassen von Inferenz-Traffic priorisieren, z. B. kritische, Standard- oder entlastbare Anfragen.
Autoscaling optimieren:Sie möchten einen Autoscaling-Mechanismus, der eng mit bestimmten Leistungsmesswerten von GenAI-Modellservern (Generative AI) wie der KV-Cache-Auslastung verknüpft ist, um fundiertere Skalierungsentscheidungen zu treffen.
Model Armor-Integration nutzen:Sie müssen Model Armor für KI-Sicherheitsprüfungen auf Gateway-Ebene verwenden.
Sofort einsatzbereite Beobachtbarkeit:Sie benötigen integrierte Beobachtbarkeit für wichtige KI-spezifische Messwerte wie GPU- oder TPU-Auslastung, KV-Cache-Treffer und Länge der Warteschlange für Anfragen.
Vereinfachung von GenAI-Bereitstellungen:Sie bevorzugen eine speziell entwickelte Lösung, die gängige GenAI-Bereitstellungsmuster in GKE vereinfacht und gleichzeitig Optionen für zukünftige Anpassungen durch die erweiterbare GKE Gateway API-Grundlage bietet.

Wann sollte GKE Gateway mit benutzerdefinierten Messwerten verwendet werden?

Wenn Sie ein flexibles Load-Balancing für allgemeine Zwecke basierend auf den individuellen Leistungsindikatoren Ihrer Anwendung erreichen möchten, verwenden Sie GKE Gateway mit benutzerdefinierten Messwerten. Dieser Ansatz ermöglicht die Lastverteilung basierend auf eindeutigen, anwendungsdefinierten Leistungsindikatoren, einschließlich spezifischer Inferenzszenarien. Wir empfehlen dies in den folgenden Szenarien:

Ihre Arbeitslast hat ein hohes Verkehrsaufkommen mit relativ einheitlichen Verarbeitungskosten pro Anfrage.
Die Lastverteilung kann effektiv durch ein oder zwei bestimmte benutzerdefinierte Messwerte verwaltet werden, die von der Anwendung gemeldet werden, in der Regel über HTTP-Antwortheader mit dem ORCA-Standard (Open Request Cost Aggregation) für die Lastberichterstellung.
Ihre Load-Balancing-Anforderungen hängen nicht von GenAI- oder LLM-spezifischen Funktionen ab.
Ihr Betriebsmodell erfordert nicht die spezielle KI-spezifische Intelligenz, die vom GKE Inference Gateway bereitgestellt wird. So wird unnötige architektonische Komplexität vermieden.
Die Konsistenz mit vorhandenen Application Load Balancer-Bereitstellungen hat Priorität und diese Bereitstellungen erfüllen die Anforderungen an den Lastenausgleich des Inferenzdienstes.

Nächste Schritte

Weitere Informationen zum GKE Inference Gateway
Application Load Balancer
In GKE AI Labs finden Sie experimentelle Beispiele, wie Sie GKE nutzen können, um Ihre KI-/ML-Initiativen zu beschleunigen.

Load-Balancing-Strategie für die KI-/ML-Modellinferenz in GKE auswählen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.