GKE AI-Konformität

Standard

In diesem Dokument wird das Kubernetes AI-Konformitätsprogramm erläutert. Außerdem wird beschrieben, warum es für Ihre KI-/ML-Arbeitslasten in Google Kubernetes Engine (GKE) wichtig ist und wie Sie konforme GKE-Cluster einrichten können.

Warum die KI-Konformität für Ihre GKE-Cluster wichtig ist

Das Kubernetes AI Conformance Program definiert einen Standard für Kubernetes-Cluster, damit KI- und ML-Arbeitslasten zuverlässig und effizient ausgeführt werden können. Das Einrichten eines Kubernetes-Clusters für KI/ML kann komplex sein. Dazu gehört oft, sich in einer Landschaft spezifischer Treiberinstallationen, API-Versionen und potenzieller Problemumgehungen für unerwartete Fehler zurechtzufinden.

Eine konforme Plattform wie GKE ist darauf ausgelegt, diese zugrunde liegenden Komplexitäten für Sie zu bewältigen und einen Pfad von der Einrichtung bis zur Bereitstellung zu bieten. Wenn Sie auf einer konformen GKE-Version aufbauen, können Sie sicher sein, dass Ihre Umgebung für Kriterien wie die folgenden optimiert ist:

Skalierbarkeit: Sie können Ihre KI-/ML-Arbeitslasten effizient nach Bedarf skalieren.
Leistung: Holen Sie das Beste aus Ihrer Hardware heraus, einschließlich GPUs und TPUs.
Portabilität: Sie können Ihre KI‑/ML-Anwendungen mit minimalen Änderungen in jedem konformen Kubernetes-Cluster ausführen.
Interoperabilität: Integration in andere Tools und Frameworks im KI/ML-Ökosystem.

KI-konformen GKE-Cluster erstellen

So erstellen Sie einen KI-konformen GKE-Cluster:

Eine Liste der konformen Versionen finden Sie im ai-conformance GitHub-Repository.
Erstellen Sie einen GKE-Cluster im Standardmodus, der auf einer konformen Version wie 1.34.0-gke.1662000 oder höher ausgeführt wird.
Aktivieren Sie die Gateway API in Ihrem Cluster.

Ihr Cluster erfüllt jetzt die obligatorischen Anforderungen für die Kubernetes AI-Konformität.

Was macht GKE zu einer Kubernetes-KI-konformen Plattform?

GKE verwaltet die zugrunde liegenden Anforderungen für die KI-Konformität für Sie. In der folgenden Tabelle sind einige dieser wichtigen Funktionen für KI-/ML-Arbeitslasten aufgeführt. Einige dieser Funktionen sind standardmäßig aktiviert, andere wie Kueue für die Gang-Planung sind optionale Ergänzungen, die Sie installieren können, um Ihre KI-/ML-Arbeitslasten zu optimieren.

Das Kubernetes AI-Konformitätsprogramm ist so konzipiert, dass es sich mit dem KI‑/ML-Ökosystem weiterentwickelt. Die Anforderungen werden mit jeder Kubernetes-Nebenversion basierend auf dem Status des Ökosystems aktualisiert. Die vollständigen Anforderungen für eine bestimmte Nebenversion finden Sie im ai-conformance-GitHub-Repository in der Datei docs/AIConformance-MINOR_VERSION.yaml, wobei MINOR_VERSION Ihre spezifische Version ist, z. B. v1.34.

Anforderung
Dynamische Ressourcenzuweisung (Dynamic Resource Allocation, DRA)	Ermöglicht flexiblere und detailliertere Ressourcenanfragen, die über die Anzahl hinausgehen. Weitere Informationen finden Sie unter Dynamische Ressourcenzuweisung.
Kubernetes Gateway API	Bietet erweiterte Trafficverwaltung für Inferenzdienste, die Funktionen wie gewichtete Trafficaufteilung und headerbasiertes Routing ermöglicht. Weitere Informationen finden Sie unter Informationen zur GKE Gateway API.
Gangplanung	Sorgt für die vollständige oder gar nicht erfolgende Planung von verteilten KI-Arbeitslasten. GKE ermöglicht die Installation und den erfolgreichen Betrieb von mindestens einer Gang-Scheduling-Lösung. Ein Beispiel finden Sie unter Batchsystem mit Kueue bereitstellen.
Cluster-Autoscaler für Beschleuniger	Skaliert Knotengruppen, die bestimmte Beschleunigertypen enthalten, basierend auf ausstehenden Pods, die diese Beschleuniger anfordern, nach oben und unten. Weitere Informationen finden Sie unter: GKE-Cluster-Autoscaling Weitere Informationen zu benutzerdefinierten Compute-Klassen
Horizontales Pod-Autoscaling (HPA) für Beschleuniger	Funktioniert korrekt für Pods, die Beschleuniger verwenden, einschließlich der Möglichkeit, diese Pods anhand von benutzerdefinierten Messwerten zu skalieren, die für KI-/ML-Arbeitslasten relevant sind. Weitere Informationen finden Sie unter: Autoscaling für LLM-Arbeitslasten auf GPUs konfigurieren Autoscaling für LLM-Arbeitslasten auf TPUs konfigurieren
Leistungsmesswerte für Accelerators	Stellt detaillierte Leistungsmesswerte über einen standardisierten, maschinenlesbaren Messwertendpunkt bereit. Weitere Informationen finden Sie unter: Leistung von GPU-Knoten-Arbeitslasten überwachen Beobachtbarkeit und Messwerte für TPU-Arbeitslasten
Standardisiertes Monitoring	Bietet ein Monitoring-System, das Messwerte aus Arbeitslasten, die sie in einem Standardformat (z. B. Prometheus-Darstellungsformat) bereitstellen, erkennen und erfassen kann. Weitere Informationen finden Sie unter Beobachtbarkeit für GKE.
Unterstützung für KI-Operatoren	Es muss nachgewiesen werden, dass mindestens ein komplexer KI-Operator mit einer benutzerdefinierten Ressourcendefinition (Custom Resource Definition, CRD) auf der Plattform installiert werden kann und zuverlässig funktioniert. Weitere Informationen finden Sie unter Machine-Learning-Plattform mit Kubeflow und Ray in Google Kubernetes Engine erstellen.

Nächste Schritte

Weitere Informationen zum Programm finden Sie im Kubernetes AI Conformance-Repository.
Einführung in KI‑/ML-Arbeitslasten in GKE
Weitere Informationen zur KI-Modellinferenz in GKE und Beispiele für die Inferenzausführung
Beispiel für das Trainieren eines Modells auf GPUs mit dem GKE Standard-Modus ausprobieren

GKE AI-Konformität Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Warum die KI-Konformität für Ihre GKE-Cluster wichtig ist

KI-konformen GKE-Cluster erstellen

Was macht GKE zu einer Kubernetes-KI-konformen Plattform?

Nächste Schritte

GKE AI-Konformität