GKE AI-Konformität

In diesem Dokument wird erläutert, was das Kubernetes AI Conformance-Programm ist, warum es für Ihre KI-/ML-Arbeitslasten in der Google Kubernetes Engine (GKE) wichtig ist und wie Sie konforme GKE-Cluster einrichten.

Warum KI-Konformität für Ihre GKE-Cluster wichtig ist

Das Kubernetes AI Conformance-Programm definiert einen Standard für Kubernetes-Cluster, um sicherzustellen, dass sie KI- und ML-Arbeitslasten zuverlässig und effizient ausführen können. Das Einrichten eines Kubernetes-Clusters für KI/ML kann komplex sein. Oft müssen Sie sich mit bestimmten Treiberinstallationen, API-Versionen und potenziellen Problemumgehungen für unerwartete Fehler auseinandersetzen.

Eine konforme Plattform wie GKE ist so konzipiert, dass sie diese zugrunde liegenden Komplexitäten für Sie übernimmt und einen Weg von der Einrichtung bis zur Bereitstellung bietet. Wenn Sie auf einer konformen GKE-Version aufbauen, können Sie sicher sein, dass Ihre Umgebung für Kriterien wie die folgenden optimiert ist:

  • Skalierbarkeit: KI-/ML-Arbeitslasten effizient nach Bedarf hoch- und herunterskalieren.
  • Leistung: Ihre Hardware, einschließlich GPUs und TPUs, optimal nutzen.
  • Portabilität: KI-/ML-Anwendungen mit minimalen Änderungen auf jedem konformen Kubernetes Cluster ausführen.
  • Interoperabilität: In andere Tools und Frameworks im KI-/ML-Ökosystem einbinden.

KI-konformen GKE-Cluster erstellen

So erstellen Sie einen KI-konformen GKE-Cluster:

  1. Sehen Sie im ai-conformance GitHub-Repository die Liste der konformen Versionen an.
  2. Erstellen Sie einen GKE-Cluster im Standard-Modus, der mit einer konformen Version wie 1.34.0-gke.1662000 oder höher ausgeführt wird.
  3. Aktivieren Sie die Gateway API in Ihrem Cluster.

Ihr Cluster erfüllt jetzt die obligatorischen Anforderungen für die Kubernetes AI Conformance.

Was macht GKE zu einer Kubernetes AI Conformance-Plattform?

GKE verwaltet die zugrunde liegenden Anforderungen für die KI-Konformität, sodass Sie das nicht tun müssen. In der folgenden Tabelle sind einige dieser wichtigsten Funktionen für KI-/ML-Arbeitslasten aufgeführt. Einige dieser Funktionen sind standardmäßig aktiviert, andere wie Kueue für die Gang-Planung sind optionale Ergänzungen, die Sie installieren können, um Ihre KI-/ML-Arbeitslasten zu verbessern.

Das Kubernetes AI Conformance-Programm soll sich mit dem KI-/ML-Ökosystem weiterentwickeln. Die Anforderungen werden mit jeder Kubernetes-Nebenversion basierend auf dem Status des Ökosystems aktualisiert. Die vollständigen Anforderungen für eine bestimmte Nebenversion finden Sie im ai-conformance GitHub-Repository, in der Datei docs/AIConformance-MINOR_VERSION.yaml. Dabei ist MINOR_VERSION Ihre spezifische Version, z. B. v1.34.

Anforderung
Dynamische Ressourcenzuweisung (Dynamic Resource Allocation, DRA) Ermöglicht flexiblere und detailliertere Ressourcenanfragen über die Anzahl hinaus. Weitere Informationen finden Sie unter Dynamische Ressourcenzuweisung.
Kubernetes Gateway API Bietet erweiterte Trafficverwaltung für Inferenzdienste, einschließlich Funktionen wie gewichtete Trafficaufteilung und headerbasiertes Routing. Weitere Informationen finden Sie unter GKE Gateway API.
Gang-Planung Sorgt für eine Alles-oder-Nichts-Planung für verteilte KI-Arbeitslasten. GKE ermöglicht die Installation und den erfolgreichen Betrieb von mindestens einer Gang-Planungslösung. Ein Beispiel finden Sie unter Batchsystem mit Kueue bereitstellen.
Cluster-Autoscaler für Beschleuniger Skaliert Knotengruppen mit bestimmten Beschleunigertypen basierend auf ausstehenden Pods, die diese Beschleuniger anfordern. Weitere Informationen finden Sie unter:
Horizontaler Pod-Autoscaler (Horizontal Pod Autoscaler, HPA) für Beschleuniger Funktioniert korrekt für Pods, die Beschleuniger verwenden, einschließlich der Möglichkeit, diese Pods basierend auf benutzerdefinierten Messwerten zu skalieren, die für KI-/ML-Arbeitslasten relevant sind. Weitere Informationen finden Sie unter:
Leistungsmesswerte für Beschleuniger Stellt detaillierte Leistungsmesswerte über einen standardisierten, maschinenlesbaren Messwertendpunkt bereit. Weitere Informationen finden Sie unter:
Standardisiertes Monitoring Bietet ein Monitorsystem, mit dem Messwerte aus Arbeitslasten ermittelt und erfasst werden können, die sie in einem Standardformat bereitstellen (z. B. Prometheus-Expositionsformat). Weitere Informationen finden Sie unter Beobachtbarkeit für GKE.
Unterstützung für KI-Operatoren Es muss nachgewiesen werden, dass mindestens ein komplexer KI-Operator mit einer benutzerdefinierten Ressourcendefinition (Custom Resource Definition, CRD) auf der Plattform installiert werden kann und zuverlässig funktioniert. Weitere Informationen finden Sie unter Machine-Learning-Plattform mit Kubeflow und Ray in der Google Kubernetes Engine erstellen.

Nächste Schritte