Pourquoi la conformité de l'IA est importante pour vos clusters GKE
Le programme de conformité de l'IA Kubernetes définit une norme pour les clusters Kubernetes afin de s'assurer qu'ils peuvent exécuter de manière fiable et efficace des charges de travail d'IA et de ML. La configuration d'un cluster Kubernetes pour l'IA/le ML peut être complexe. Elle implique souvent de naviguer dans un paysage d'installations de pilotes spécifiques, de versions d'API et de solutions de contournement potentielles pour les bugs inattendus.
Une plate-forme conforme comme GKE est conçue pour gérer ces complexités sous-jacentes à votre place, en vous offrant un chemin de la configuration au déploiement. En vous appuyant sur une version GKE conforme, vous pouvez être sûr que votre environnement est optimisé pour des critères tels que les suivants :
- Évolutivité : faites évoluer vos charges de travail d'IA/de ML de manière efficace en fonction de la demande.
- Performances : tirez le meilleur parti de votre matériel, y compris des GPU et des TPU.
- Portabilité : exécutez vos applications d'IA/de ML sur n'importe quel cluster Kubernetes conforme avec un minimum de modifications.
- Interopérabilité : intégrez-vous à d'autres outils et frameworks de l'écosystème d'IA/de ML.
Créer un cluster GKE conforme à l'IA
Pour créer un cluster GKE conforme à l'IA, procédez comme suit :
- Consultez le
ai-conformancedépôt GitHub pour afficher la liste des versions conformes. - Créez un cluster GKE en mode Standard exécuté sur une version conforme, telle que 1.34.0-gke.1662000 ou une version ultérieure.
- Activez l'API Gateway sur votre cluster.
Votre cluster répond désormais aux exigences obligatoires pour la conformité de l'IA Kubernetes.
Qu'est-ce qui fait de GKE une plate-forme conforme à l'IA Kubernetes ?
GKE gère les exigences sous-jacentes pour la conformité de l'IA, ce qui vous évite d'avoir à le faire. Le tableau suivant met en évidence certaines de ces fonctionnalités clés pour les charges de travail d'IA/de ML. Certaines de ces fonctionnalités sont activées par défaut, mais d'autres, comme Kueue pour la planification de groupe, sont des ajouts facultatifs que vous pouvez installer pour améliorer vos charges de travail d'IA/de ML.
Le programme de conformité de l'IA Kubernetes est conçu pour évoluer avec l'écosystème d'IA/de ML.
Les exigences sont mises à jour à chaque version mineure de Kubernetes en fonction de l'état de l'écosystème. Pour obtenir l'ensemble des exigences d'une version mineure spécifique, dans le
ai-conformance dépôt GitHub,
consultez le docs/AIConformance-MINOR_VERSION.yaml fichier,
où MINOR_VERSION correspond à votre version spécifique, par exemple
v1.34.
| Exigence | |
|---|---|
| Allocation dynamique des ressources (DRA) | Permet des requêtes de ressources plus flexibles et plus précises que les nombres. Pour en savoir plus, consultez À propos de l'allocation dynamique des ressources. |
| API Gateway Kubernetes | Fournit une gestion avancée du trafic pour les services d'inférence, ce qui permet des fonctionnalités telles que la répartition du trafic pondérée et le routage basé sur les en-têtes. Pour en savoir plus, consultez À propos de l'API Gateway GKE. |
| Planification de groupe | Garantit une planification tout ou rien pour les charges de travail d'IA distribuées. GKE permet l'installation et le bon fonctionnement d'au moins une solution de planification de groupe. Pour consulter un exemple, reportez-vous à la section Déployer un système de traitement par lots à l'aide de Kueue. |
| Autoscaler de cluster pour les accélérateurs | Fait évoluer les groupes de nœuds contenant des types d'accélérateurs spécifiques en fonction des pods en attente qui demandent ces accélérateurs. Pour plus d'informations, consultez : |
| Autoscaler horizontal de pods (AHP) pour les accélérateurs | Fonctionne correctement pour les pods qui utilisent des accélérateurs, y compris la possibilité de faire évoluer ces pods en fonction de métriques personnalisées pertinentes pour les charges de travail d'IA/de ML. Pour plus d'informations, consultez : |
| Métriques de performances des accélérateurs | Expose des métriques de performances précises à l'aide d'un point de terminaison de métriques au format standardisé et lisible par machine. Pour plus d'informations, consultez : |
| Surveillance standardisée | Fournit un système de surveillance capable de découvrir et de collecter des métriques à partir de charges de travail qui les exposent dans un format standard (par exemple, le format d'exposition Prometheus). Pour en savoir plus, consultez Observabilité pour GKE. |
| Assistance pour les opérateurs d'IA | Doit prouver qu'au moins un opérateur d'IA complexe avec une définition de ressource personnalisée (CRD) peut être installé sur la plate-forme et qu'il fonctionne de manière fiable. Pour en savoir plus, consultez Créer une plate-forme de machine learning avec Kubeflow et Ray sur Google Kubernetes Engine. |
Étape suivante
- Explorez le dépôt de conformité de l'IA Kubernetes pour en savoir plus sur le programme.
- Lisez la section Introduction aux charges de travail d'IA/de ML sur GKE.
- Découvrez l'inférence de modèles d'IA sur GKE et essayez des exemples d'inférence.
- Essayez un exemple d'entraînement d'un modèle sur des GPU avec le mode GKE Standard.