Elastische regionenübergreifende Hochverfügbarkeit

Sie können eine elastische, regionenübergreifende Hochverfügbarkeit für anspruchsvolle KI-Inferenzarbeitslasten in Google Kubernetes Engine (GKE) erreichen, um effizient und zuverlässig auf Beschleunigerkapazität in verschiedenen Google Cloud Regionen zuzugreifen. Bei dieser Lösung werden das GKE Multi-Cluster Inference Gateway und die GKE-Autoscaling-Funktionen verwendet, sodass Ihre Arbeitslasten in verschiedenen Regionen auf die Beschleunigerkapazität zugreifen und mit ihr skaliert werden können. Dieser Ansatz verbessert die Ressourcenverfügbarkeit, Skalierbarkeit und Ausfallsicherheit Ihrer KI-Anwendungen. In diesem Dokument werden die Vorteile, die wichtigsten Komponenten und die allgemeine Funktionsweise der elastischen regionsübergreifenden Hochverfügbarkeit beschrieben.

Bevor Sie dieses Dokument lesen, sollten Sie mit Folgendem vertraut sein:

Dieses Dokument richtet sich an die folgenden Personen:

  • ML-Entwickler, Plattformadministratoren und ‑operatoren sowie Daten- und KI-Spezialisten, die daran interessiert sind, Kubernetes für die Bereitstellung von KI‑/ML-Arbeitslasten zu verwenden
  • Cloud-Architekten oder Netzwerkspezialisten, die mit Kubernetes-Netzwerken interagieren

Weitere Informationen zu gängigen Rollen und Beispielaufgaben, auf die wir inGoogle Cloud Inhalten verweisen, finden Sie unter Häufig verwendete GKE Enterprise-Nutzerrollen und -Aufgaben.

Vorteile der elastischen regionenübergreifenden Hochverfügbarkeit

Die elastische regionsübergreifende Hochverfügbarkeit bietet mehrere wichtige Vorteile für die Verwaltung Ihrer KI-/ML-Inferenzarbeitslasten, darunter:

  • Mehr Kapazität und Skalierbarkeit:Engpässe bei Beschleunigern in einer einzelnen Region lassen sich vermeiden, indem GPU- oder TPU-Ressourcen aus mehreren Clustern in verschiedenen Regionen zusammengefasst werden. Sie können auch verschiedene Beschleunigertypen verwenden, um den Kapazitätspool weiter zu vergrößern. Mit diesem Ansatz können Ihre KI-Inferenzarbeitslasten die Kapazität einer einzelnen Region oder eines einzelnen Beschleunigertyps überschreiten, da automatisch auf verfügbare Ressourcen in Ihrer Flotte zugegriffen wird, unabhängig von der Region.
  • Automatisches Spillover und höhere Zuverlässigkeit und Verfügbarkeit:Das Gateway leitet den Traffic intelligent weiter und priorisiert bevorzugte Regionen oder Cluster. Wenn an einem Standort Kapazitätsgrenzen erreicht werden, wird der Traffic automatisch auf andere Standorte mit verfügbaren Ressourcen übertragen. Dieser Ansatz in Kombination mit multiregionalen Bereitstellungen verbessert die Hochverfügbarkeit und Fehlertoleranz, da das System Cluster oder Regionen mit Problemen umgehen kann.
  • KI-optimierte Traffic-Verteilung:Verwenden Sie die lastbasierte Lastverteilung mit benutzerdefinierten KI-spezifischen Messwerten wie der Nutzung des Schlüssel/Wert-Cache. Diese Einrichtung sorgt für weltweit optimierte Weiterleitungsentscheidungen. Durch die KI-optimierte Traffic-Verteilung werden Anfragen an die Backends gesendet, die für die Verarbeitung dieser Anfragen geeignet sind. So wird die Leistung maximiert und eine Überlastung Ihrer Multi-Cluster-Inference-Flotte verhindert.

Funktionsweise der elastischen regionenübergreifenden Hochverfügbarkeit

Die elastische regionsübergreifende Hochverfügbarkeit in GKE ermöglicht es Ihren KI-Inferenzarbeitslasten, automatisch Beschleunigerkapazität (z. B. GPUs oder TPUs) in mehreren Google Cloud Regionen zu nutzen. Wenn in Ihrer primären Region Kapazitätsbeschränkungen für erforderliche Ressourcen auftreten, leitet diese Lösung den Traffic intelligent weiter und skaliert Arbeitslasten auf andere Regionen mit verfügbarer Kapazität, wobei Ihre definierten Einstellungen berücksichtigt werden.

Im Folgenden werden die wichtigsten Komponenten der elastischen regionenübergreifenden Hochverfügbarkeit und ihre Funktionsweise beschrieben:

  • Multi-Cluster-Inference Gateway: Ihre Inferenzanwendung wird in mehreren GKE-Clustern in verschiedenen Regionen bereitgestellt. Diese Cluster werden als Teil einer GKE-Flotte verwaltet. Ein GKE Multi-Cluster Inference Gateway (MCG) wird mit einem internen Load Balancer konfiguriert, der einen einzelnen privaten Endpunkt für Ihre Inferenzanfragen bereitstellt. Dieses Gateway kennt Ihre Dienstbereitstellungen in allen Clustern der Flotte.
  • Auslastungsbasiertes Load-Balancing: Anstelle von grundlegenden Anfrageraten verteilt der Load Balancer den Traffic basierend auf benutzerdefinierten Auslastungsmesswerten in Echtzeit, die von Ihren Modellservern gemeldet werden. Für die KI-Inferenz ist dies häufig eine Messgröße wie die KV-Cache-Auslastung, die die tatsächliche Last auf dem Server widerspiegelt.
  • Standort- und Ressourcenpräferenzen: Sie können konfigurieren, in welchen Regionen oder Zonen Ihre KI-Inferenzarbeitslasten während der Clustererstellung ausgeführt werden dürfen, und eine bevorzugte Reihenfolge mit den folgenden Optionen angeben:
    • GCPBackendPolicy: Diese Richtlinie ist an das Gateway angehängt und ermöglicht es Ihnen, bevorzugte Back-Ends zu definieren. Sie können angeben, an welche Regionen (d. h. Cluster) der Load-Balancer Traffic vorrangig senden soll. Diese Richtlinie wird in der Regel an die Region angepasst, in der Sie Kapazität reserviert haben oder in der Sie geringere Latenzanforderungen haben.
    • Benutzerdefinierte Compute-Klasse (optional, wenn Sie die automatische Erstellung von Knotenpools verwenden): In jedem einzelnen GKE-Cluster können Sie benutzerdefinierte ComputeClass-Objekte verwenden, um bevorzugte Knotentypen zu definieren, einschließlich Maschinentypen (z. B. a3-highgpu-8g), Kapazitätstypen (z. B. reserviert, On-Demand und Spot) und sogar bevorzugte Zonen in dieser Region.
  • Dynamische Skalierung und Traffic-Routing: Traffic wird gemäß dem folgenden Prozess skaliert und weitergeleitet:
    • Eingehende Anfragen erreichen den internen Load-Balancer des Multi-Cluster-Ingress-Gateways.
    • Der Load Balancer sendet Traffic anhand der GCPBackendPolicy zuerst an Back-Ends in Ihren bevorzugten Regionen.
    • Der Traffic wird innerhalb einer Region und über Back-Ends hinweg auf Grundlage der benutzerdefinierten Auslastungsstatistiken verteilt.
    • Das horizontale Pod-Autoscaling (HPA) in jedem Cluster skaliert die Anzahl der Modellserver-Pods basierend auf denselben Auslastungsmesswerten nach oben oder unten.
    • Der GKE Cluster Autoscaler und die automatische Knotenbereitstellung fügen Knoten der bevorzugten Typen und Zonen hinzu oder entfernen sie, um die Skalierungsanforderungen des Pods zu erfüllen. Dabei wird die benutzerdefinierte ComputeClass berücksichtigt.
  • Elastische überregionale Hochverfügbarkeit in Aktion: Wenn die Modellserver in den bevorzugten Regionen vollständig ausgelastet sind (d. h. keine zusätzliche Kapazität verfügbar ist), leitet der Load-Balancer den Traffic automatisch an Cluster in anderen konfigurierten Regionen mit verfügbarer Kapazität weiter. Die HPA und der Cluster Autoscaler skalieren dann die Ressourcen in diesen Fallback-Regionen nach Bedarf hoch.

Nächste Schritte