À propos de la conformité de GKE AI

Standard

Ce document explique ce qu'est le programme de conformité de l'IA Kubernetes, pourquoi il est important pour vos charges de travail d'IA/de ML sur Google Kubernetes Engine (GKE) et comment configurer des clusters GKE conformes.

Pourquoi la conformité de l'IA est-elle importante pour vos clusters GKE ?

Le programme de conformité de l'IA Kubernetes définit une norme pour les clusters Kubernetes afin de s'assurer qu'ils peuvent exécuter de manière fiable et efficace des charges de travail d'IA et de ML. La configuration d'un cluster Kubernetes pour l'IA/ML peut être complexe. Cela implique souvent de s'orienter dans un paysage d'installations de pilotes spécifiques, de versions d'API et de solutions de contournement potentielles pour les bugs inattendus.

Une plate-forme conforme comme GKE est conçue pour gérer ces complexités sous-jacentes à votre place, en vous guidant de la configuration au déploiement. En vous appuyant sur une version conforme de GKE, vous pouvez être sûr que votre environnement est optimisé pour des critères tels que les suivants :

Évolutivité : faites évoluer efficacement vos charges de travail d'IA/de ML à la hausse ou à la baisse en fonction de la demande.
Performances : exploitez tout le potentiel de votre matériel, y compris les GPU et les TPU.
Portabilité : exécutez vos applications d'IA/ML sur n'importe quel cluster Kubernetes conforme avec un minimum de modifications.
Interopérabilité : intégration à d'autres outils et frameworks de l'écosystème d'IA/ML.

Créer un cluster GKE conforme à l'IA

Pour créer un cluster GKE conforme à l'IA, vous devez procéder comme suit :

Consultez le dépôt GitHub ai-conformance pour afficher la liste des versions conformes.
Créez un cluster GKE en mode Standard exécutant une version conforme, telle que 1.34.0-gke.1662000 ou ultérieure.
Activez l'API Gateway sur votre cluster.

Votre cluster répond désormais aux exigences obligatoires de conformité de l'IA Kubernetes.

Qu'est-ce qui fait de GKE une plate-forme conforme à l'IA Kubernetes ?

GKE gère les exigences sous-jacentes de conformité à l'IA pour vous. Le tableau suivant met en évidence certaines de ces fonctionnalités clés pour les charges de travail d'IA/ML. Certaines de ces fonctionnalités sont activées par défaut, mais d'autres, comme Kueue pour la planification de groupe, sont des ajouts facultatifs que vous pouvez installer pour améliorer vos charges de travail d'IA/ML.

Le programme de conformité de l'IA Kubernetes est conçu pour évoluer avec l'écosystème d'IA/ML. Les exigences sont mises à jour à chaque version mineure de Kubernetes en fonction de l'état de l'écosystème. Pour connaître l'ensemble des exigences d'une version mineure spécifique, consultez le fichier docs/AIConformance-MINOR_VERSION.yaml dans le dépôt GitHub ai-conformance, où MINOR_VERSION correspond à votre version spécifique, par exemple v1.34.

Exigence
Allocation dynamique des ressources (DRA)	Permet des demandes de ressources plus flexibles et plus précises que les nombres. Pour en savoir plus, consultez À propos de l'allocation dynamique des ressources.
API Gateway Kubernetes	Fournit une gestion avancée du trafic pour les services d'inférence, ce qui permet des fonctionnalités telles que la répartition du trafic pondérée et le routage basé sur les en-têtes. Pour en savoir plus, consultez À propos de l'API GKE Gateway.
Planification par groupe	Assure une planification tout ou rien pour les charges de travail d'IA distribuées. GKE permet l'installation et le bon fonctionnement d'au moins une solution de planification de gangs. Pour obtenir un exemple, consultez Déployer un système de traitement par lots à l'aide de Kueue.
Autoscaler de cluster pour les accélérateurs	Effectue un scaling à la hausse et à la baisse des groupes de nœuds contenant des types d'accélérateurs spécifiques, en fonction des pods en attente qui demandent ces accélérateurs. Pour plus d'informations, consultez : À propos de l'autoscaling des clusters GKE À propos des classes de calcul personnalisées
Autoscaler horizontal de pods (AHP) pour les accélérateurs	Fonctionne correctement pour les pods utilisant des accélérateurs, y compris la possibilité de mettre à l'échelle ces pods en fonction de métriques personnalisées pertinentes pour les charges de travail d'IA/ML. Pour en savoir plus, consultez : Configurer l'autoscaling pour les charges de travail LLM sur les GPU Configurer l'autoscaling pour les charges de travail LLM sur les TPU
Métriques de performances de l'accélérateur	Expose des métriques de performances précises à l'aide d'un point de terminaison de métriques au format standardisé et lisible par machine. Pour en savoir plus, consultez : Surveillez les performances des charges de travail de vos nœuds GPU. Observabilité et métriques pour les charges de travail TPU
Surveillance standardisée	Fournit un système de surveillance capable de découvrir et de collecter des métriques à partir de charges de travail qui les exposent dans un format standard (par exemple, le format d'exposition Prometheus). Pour en savoir plus, consultez Observabilité pour GKE.
Assistance par un opérateur IA	Vous devez prouver qu'au moins un opérateur d'IA complexe avec une définition de ressource personnalisée (CRD) peut être installé sur la plate-forme et qu'il fonctionne de manière fiable. Pour en savoir plus, consultez Créer une plate-forme de machine learning avec Kubeflow et Ray sur Google Kubernetes Engine.

Étapes suivantes

Pour en savoir plus sur le programme, consultez le dépôt de conformité de l'IA Kubernetes.
Consultez la présentation des charges de travail d'IA/de ML sur GKE.
En savoir plus sur l'inférence de modèles d'IA sur GKE et essayer des exemples d'inférence
Essayez un exemple d'entraînement d'un modèle sur des GPU avec le mode GKE Standard.

À propos de la conformité de GKE AI Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Pourquoi la conformité de l'IA est-elle importante pour vos clusters GKE ?

Créer un cluster GKE conforme à l'IA

Qu'est-ce qui fait de GKE une plate-forme conforme à l'IA Kubernetes ?

Étapes suivantes

À propos de la conformité de GKE AI