À propos de la conformité de GKE AI

Ce document explique ce qu'est le programme de conformité de l'IA Kubernetes, pourquoi il est important pour vos charges de travail d'IA/de ML sur Google Kubernetes Engine (GKE) et comment configurer des clusters GKE conformes.

Pourquoi la conformité de l'IA est importante pour vos clusters GKE

Le programme de conformité de l'IA Kubernetes définit une norme pour les clusters Kubernetes afin de s'assurer qu'ils peuvent exécuter de manière fiable et efficace des charges de travail d'IA et de ML. La configuration d'un cluster Kubernetes pour l'IA/le ML peut être complexe. Elle implique souvent de naviguer dans un paysage d'installations de pilotes spécifiques, de versions d'API et de solutions de contournement potentielles pour les bugs inattendus.

Une plate-forme conforme comme GKE est conçue pour gérer ces complexités sous-jacentes à votre place, en vous offrant un chemin de la configuration au déploiement. En vous appuyant sur une version GKE conforme, vous pouvez être sûr que votre environnement est optimisé pour des critères tels que les suivants :

  • Évolutivité : faites évoluer vos charges de travail d'IA/de ML de manière efficace en fonction de la demande.
  • Performances : tirez le meilleur parti de votre matériel, y compris des GPU et des TPU.
  • Portabilité : exécutez vos applications d'IA/de ML sur n'importe quel cluster Kubernetes conforme avec un minimum de modifications.
  • Interopérabilité : intégrez-vous à d'autres outils et frameworks de l'écosystème d'IA/de ML.

Créer un cluster GKE conforme à l'IA

Pour créer un cluster GKE conforme à l'IA, procédez comme suit :

  1. Consultez le ai-conformance dépôt GitHub pour afficher la liste des versions conformes.
  2. Créez un cluster GKE en mode Standard exécuté sur une version conforme, telle que 1.34.0-gke.1662000 ou une version ultérieure.
  3. Activez l'API Gateway sur votre cluster.

Votre cluster répond désormais aux exigences obligatoires pour la conformité de l'IA Kubernetes.

Qu'est-ce qui fait de GKE une plate-forme conforme à l'IA Kubernetes ?

GKE gère les exigences sous-jacentes pour la conformité de l'IA, ce qui vous évite d'avoir à le faire. Le tableau suivant met en évidence certaines de ces fonctionnalités clés pour les charges de travail d'IA/de ML. Certaines de ces fonctionnalités sont activées par défaut, mais d'autres, comme Kueue pour la planification de groupe, sont des ajouts facultatifs que vous pouvez installer pour améliorer vos charges de travail d'IA/de ML.

Le programme de conformité de l'IA Kubernetes est conçu pour évoluer avec l'écosystème d'IA/de ML. Les exigences sont mises à jour à chaque version mineure de Kubernetes en fonction de l'état de l'écosystème. Pour obtenir l'ensemble des exigences d'une version mineure spécifique, dans le ai-conformance dépôt GitHub, consultez le docs/AIConformance-MINOR_VERSION.yaml fichier, où MINOR_VERSION correspond à votre version spécifique, par exemple v1.34.

Exigence
Allocation dynamique des ressources (DRA) Permet des requêtes de ressources plus flexibles et plus précises que les nombres. Pour en savoir plus, consultez À propos de l'allocation dynamique des ressources.
API Gateway Kubernetes Fournit une gestion avancée du trafic pour les services d'inférence, ce qui permet des fonctionnalités telles que la répartition du trafic pondérée et le routage basé sur les en-têtes. Pour en savoir plus, consultez À propos de l'API Gateway GKE.
Planification de groupe Garantit une planification tout ou rien pour les charges de travail d'IA distribuées. GKE permet l'installation et le bon fonctionnement d'au moins une solution de planification de groupe. Pour consulter un exemple, reportez-vous à la section Déployer un système de traitement par lots à l'aide de Kueue.
Autoscaler de cluster pour les accélérateurs Fait évoluer les groupes de nœuds contenant des types d'accélérateurs spécifiques en fonction des pods en attente qui demandent ces accélérateurs. Pour plus d'informations, consultez :
Autoscaler horizontal de pods (AHP) pour les accélérateurs Fonctionne correctement pour les pods qui utilisent des accélérateurs, y compris la possibilité de faire évoluer ces pods en fonction de métriques personnalisées pertinentes pour les charges de travail d'IA/de ML. Pour plus d'informations, consultez :
Métriques de performances des accélérateurs Expose des métriques de performances précises à l'aide d'un point de terminaison de métriques au format standardisé et lisible par machine. Pour plus d'informations, consultez :
Surveillance standardisée Fournit un système de surveillance capable de découvrir et de collecter des métriques à partir de charges de travail qui les exposent dans un format standard (par exemple, le format d'exposition Prometheus). Pour en savoir plus, consultez Observabilité pour GKE.
Assistance pour les opérateurs d'IA Doit prouver qu'au moins un opérateur d'IA complexe avec une définition de ressource personnalisée (CRD) peut être installé sur la plate-forme et qu'il fonctionne de manière fiable. Pour en savoir plus, consultez Créer une plate-forme de machine learning avec Kubeflow et Ray sur Google Kubernetes Engine.

Étape suivante