Pourquoi la conformité de l'IA est-elle importante pour vos clusters GKE ?
Le programme de conformité de l'IA Kubernetes définit une norme pour les clusters Kubernetes afin de s'assurer qu'ils peuvent exécuter de manière fiable et efficace des charges de travail d'IA et de ML. La configuration d'un cluster Kubernetes pour l'IA/ML peut être complexe. Cela implique souvent de s'orienter dans un paysage d'installations de pilotes spécifiques, de versions d'API et de solutions de contournement potentielles pour les bugs inattendus.
Une plate-forme conforme comme GKE est conçue pour gérer ces complexités sous-jacentes à votre place, en vous guidant de la configuration au déploiement. En vous appuyant sur une version conforme de GKE, vous pouvez être sûr que votre environnement est optimisé pour des critères tels que les suivants :
- Évolutivité : faites évoluer efficacement vos charges de travail d'IA/de ML à la hausse ou à la baisse en fonction de la demande.
- Performances : exploitez tout le potentiel de votre matériel, y compris les GPU et les TPU.
- Portabilité : exécutez vos applications d'IA/ML sur n'importe quel cluster Kubernetes conforme avec un minimum de modifications.
- Interopérabilité : intégration à d'autres outils et frameworks de l'écosystème d'IA/ML.
Créer un cluster GKE conforme à l'IA
Pour créer un cluster GKE conforme à l'IA, vous devez procéder comme suit :
- Consultez le dépôt GitHub
ai-conformancepour afficher la liste des versions conformes. - Créez un cluster GKE en mode Standard exécutant une version conforme, telle que 1.34.0-gke.1662000 ou ultérieure.
- Activez l'API Gateway sur votre cluster.
Votre cluster répond désormais aux exigences obligatoires de conformité de l'IA Kubernetes.
Qu'est-ce qui fait de GKE une plate-forme conforme à l'IA Kubernetes ?
GKE gère les exigences sous-jacentes de conformité à l'IA pour vous. Le tableau suivant met en évidence certaines de ces fonctionnalités clés pour les charges de travail d'IA/ML. Certaines de ces fonctionnalités sont activées par défaut, mais d'autres, comme Kueue pour la planification de groupe, sont des ajouts facultatifs que vous pouvez installer pour améliorer vos charges de travail d'IA/ML.
Le programme de conformité de l'IA Kubernetes est conçu pour évoluer avec l'écosystème d'IA/ML.
Les exigences sont mises à jour à chaque version mineure de Kubernetes en fonction de l'état de l'écosystème. Pour connaître l'ensemble des exigences d'une version mineure spécifique, consultez le fichier docs/AIConformance-MINOR_VERSION.yaml dans le dépôt GitHub ai-conformance, où MINOR_VERSION correspond à votre version spécifique, par exemple v1.34.
| Exigence | |
|---|---|
| Allocation dynamique des ressources (DRA) | Permet des demandes de ressources plus flexibles et plus précises que les nombres. Pour en savoir plus, consultez À propos de l'allocation dynamique des ressources. |
| API Gateway Kubernetes | Fournit une gestion avancée du trafic pour les services d'inférence, ce qui permet des fonctionnalités telles que la répartition du trafic pondérée et le routage basé sur les en-têtes. Pour en savoir plus, consultez À propos de l'API GKE Gateway. |
| Planification par groupe | Assure une planification tout ou rien pour les charges de travail d'IA distribuées. GKE permet l'installation et le bon fonctionnement d'au moins une solution de planification de gangs. Pour obtenir un exemple, consultez Déployer un système de traitement par lots à l'aide de Kueue. |
| Autoscaler de cluster pour les accélérateurs | Effectue un scaling à la hausse et à la baisse des groupes de nœuds contenant des types d'accélérateurs spécifiques, en fonction des pods en attente qui demandent ces accélérateurs. Pour plus d'informations, consultez : |
| Autoscaler horizontal de pods (AHP) pour les accélérateurs | Fonctionne correctement pour les pods utilisant des accélérateurs, y compris la possibilité de mettre à l'échelle ces pods en fonction de métriques personnalisées pertinentes pour les charges de travail d'IA/ML. Pour en savoir plus, consultez : |
| Métriques de performances de l'accélérateur | Expose des métriques de performances précises à l'aide d'un point de terminaison de métriques au format standardisé et lisible par machine. Pour en savoir plus, consultez : |
| Surveillance standardisée | Fournit un système de surveillance capable de découvrir et de collecter des métriques à partir de charges de travail qui les exposent dans un format standard (par exemple, le format d'exposition Prometheus). Pour en savoir plus, consultez Observabilité pour GKE. |
| Assistance par un opérateur IA | Vous devez prouver qu'au moins un opérateur d'IA complexe avec une définition de ressource personnalisée (CRD) peut être installé sur la plate-forme et qu'il fonctionne de manière fiable. Pour en savoir plus, consultez Créer une plate-forme de machine learning avec Kubeflow et Ray sur Google Kubernetes Engine. |
Étapes suivantes
- Pour en savoir plus sur le programme, consultez le dépôt de conformité de l'IA Kubernetes.
- Consultez la présentation des charges de travail d'IA/de ML sur GKE.
- En savoir plus sur l'inférence de modèles d'IA sur GKE et essayer des exemples d'inférence
- Essayez un exemple d'entraînement d'un modèle sur des GPU avec le mode GKE Standard.