Ce principe du pilier "Durabilité" du Google Cloud Framework Well-Architected fournit des recommandations pour optimiser les charges de travail d'IA et de ML afin de réduire leur consommation d'énergie et leur empreinte carbone.
Présentation des principes
Pour optimiser la durabilité des charges de travail d'IA et de ML, vous devez adopter une approche holistique de la conception, du déploiement et de l'exploitation de ces charges de travail. Sélectionnez les modèles appropriés et le matériel spécialisé, comme les Tensor Processing Units (TPU), exécutez les charges de travail dans des régions à faibles émissions de carbone, optimisez-les pour réduire l'utilisation des ressources et appliquez les bonnes pratiques opérationnelles.
Les pratiques architecturales et opérationnelles qui optimisent le coût et les performances des charges de travail d'IA et de ML entraînent intrinsèquement une réduction de la consommation d'énergie et de l'empreinte carbone. La perspective de l'IA et du ML du framework Well-Architected décrit les principes et les recommandations pour concevoir, créer et gérer des charges de travail d'IA et de ML qui répondent à vos objectifs opérationnels, de sécurité, de fiabilité, de coût et de performances. De plus, le Cloud Architecture Center fournit des architectures de référence et des guides de conception détaillés pour les charges de travail d'IA et de ML dans Google Cloud.
Recommandations
Pour optimiser l'efficacité énergétique des charges de travail d'IA et de ML, tenez compte des recommandations des sections suivantes.
Concevoir une architecture écoénergétique à l'aide de TPU
Les charges de travail d'IA et de ML peuvent être gourmandes en ressources de calcul. La consommation d'énergie des charges de travail d'IA et de ML est un élément clé de la durabilité. Les TPU vous permettent d'améliorer considérablement l'efficacité énergétique et la durabilité de vos charges de travail d'IA et de ML.
Les TPU sont des accélérateurs conçus sur mesure et spécialement conçus pour les charges de travail d'IA et de ML. L'architecture spécialisée des TPU les rend très efficaces pour la multiplication matricielle à grande échelle, qui est à la base du deep learning. Les TPU peuvent effectuer des tâches complexes à grande échelle avec une efficacité supérieure à celle des processeurs à usage général tels que les CPU ou les GPU.
Les TPU offrent les avantages directs suivants en termes de durabilité :
- Consommation d'énergie réduite : les TPU sont conçus pour une efficacité énergétique optimale. Ils offrent un plus grand nombre de calculs par watt d'énergie consommée. Leur architecture spécialisée réduit considérablement les besoins en énergie des tâches d'entraînement et d'inférence à grande échelle, ce qui entraîne une diminution des coûts opérationnels et de la consommation d'énergie.
- Entraînement et inférence plus rapides : les performances exceptionnelles des TPU vous permettent d'entraîner des modèles d'IA complexes en quelques heures au lieu de plusieurs jours. Cette réduction considérable du temps de calcul total contribue directement à une empreinte environnementale plus faible.
- Besoins de refroidissement réduits : les TPU intègrent un système de refroidissement liquide avancé, qui assure une gestion thermique efficace et réduit considérablement l'énergie utilisée pour refroidir le centre de données.
- Optimisation du cycle de vie de l'IA : en intégrant le matériel et les logiciels, les TPU offrent une solution optimisée tout au long du cycle de vie de l'IA, du traitement des données au service de modèles.
Suivez les bonnes pratiques des 4 M pour la sélection des ressources
Google recommande un ensemble de bonnes pratiques pour réduire considérablement la consommation d'énergie et les émissions de carbone pour les charges de travail d'IA et de ML. Nous appelons ces bonnes pratiques les 4 M :
- Modèle : sélectionnez des architectures de modèles de ML efficaces. Par exemple, les modèles creux améliorent la qualité du ML et réduisent les opérations de calcul d'un facteur 3 à 10 par rapport aux modèles denses.
- Machine : choisissez des processeurs et des systèmes optimisés pour l'entraînement ML. Ces processeurs améliorent les performances et l'efficacité énergétique d'un facteur 2 à 5 par rapport aux processeurs à usage général.
- Mécanisation : déployez vos charges de travail exigeantes en ressources de calcul dans le cloud. Vos charges de travail consomment moins d'énergie et génèrent 1,4 à 2 fois moins d'émissions que les déploiements sur site. Les centres de données cloud utilisent des entrepôts récents, conçus sur mesure et économes en énergie, qui présentent un rapport d'efficacité énergétique (PUE) élevé. Les centres de données sur site sont souvent plus anciens et plus petits. Il est donc possible que les investissements dans des systèmes de refroidissement et de distribution électrique économes en énergie ne soient pas rentables.
- Carte : sélectionnez Google Cloud les zones géographiques qui utilisent l'énergie la plus propre. Cette approche permet de réduire l'empreinte carbone brute de vos charges de travail par un facteur de 5 à 10. Pour en savoir plus, consultez Énergie sans carbone pour les régions Google Cloud .
Pour en savoir plus sur les bonnes pratiques et les métriques d'efficacité des 4 M, consultez les études suivantes :
- L'empreinte carbone de l'entraînement de machine learning va se stabiliser, puis diminuer
- The data center as a computer: An introduction to the design of warehouse-scale machines, second edition
Optimiser les modèles et algorithmes d'IA pour l'entraînement et l'inférence
L'architecture d'un modèle d'IA et les algorithmes utilisés pour l'entraînement et l'inférence ont un impact important sur la consommation d'énergie. Tenez compte des recommandations suivantes.
Sélectionner des modèles d'IA efficaces
Choisissez des modèles d'IA plus petits et plus efficaces qui répondent à vos exigences de performances. Ne sélectionnez pas le plus grand modèle disponible comme choix par défaut. Par exemple, une version plus petite et distillée d'un modèle comme DistilBERT peut offrir des performances similaires avec une surcharge de calcul nettement inférieure et une inférence plus rapide qu'un modèle plus grand comme BERT.
Utiliser des solutions hyper efficaces et spécifiques à un domaine
Choisissez des solutions de ML spécialisées qui offrent de meilleures performances et nécessitent beaucoup moins de puissance de calcul qu'un grand modèle de base. Ces solutions spécialisées sont souvent pré-entraînées et hyper-optimisées. Elles peuvent réduire considérablement la consommation d'énergie et l'effort de recherche pour les charges de travail d'entraînement et d'inférence. Voici quelques exemples de solutions spécialisées spécifiques à un domaine :
- Earth AI est une solution écoénergétique qui synthétise de grandes quantités de données géospatiales mondiales pour fournir des insights précis, exploitables et en temps opportun.
- WeatherNext produit des prévisions météorologiques mondiales plus rapides, plus efficaces et très précises par rapport aux méthodes physiques classiques.
Appliquer les techniques de compression de modèles appropriées
Voici quelques exemples de techniques que vous pouvez utiliser pour compresser des modèles :
- Élagueur : supprime les paramètres inutiles d'un réseau de neurones. Il s'agit de paramètres qui ne contribuent pas de manière significative aux performances d'un modèle. Cette technique réduit la taille du modèle et les ressources de calcul nécessaires à l'inférence.
- Quantification : réduisez la précision des paramètres du modèle. Par exemple, réduisez la précision de 32 bits à virgule flottante à des entiers de 8 bits. Cette technique peut aider à réduire considérablement l'empreinte mémoire et la consommation d'énergie sans diminution notable de la précision.
- Distillation des connaissances : entraînez un modèle élève plus petit pour imiter le comportement d'un modèle enseignant plus grand et plus complexe. Le modèle élève peut atteindre un niveau de performances élevé avec moins de paramètres et en consommant moins d'énergie.
Utiliser du matériel spécialisé
Comme indiqué dans Suivez les bonnes pratiques des 4 M pour la sélection des ressources, choisissez des processeurs et des systèmes optimisés pour l'entraînement du ML. Ces processeurs améliorent les performances et l'efficacité énergétique d'un facteur 2 à 5 par rapport aux processeurs à usage général.
Utiliser l'affinage d'un sous-ensemble de paramètres
Au lieu d'ajuster tous les milliards de paramètres d'un modèle (affinage complet), utilisez des méthodes d'optimisation du réglage des paramètres (PEFT, parameter-efficient fine-tuning) comme l'adaptation de faible rang (LoRA, low-rank adaptation). Avec cette technique, vous figez les pondérations du modèle d'origine et n'entraînez qu'un petit nombre de nouvelles couches légères. Cette approche permet de réduire les coûts et la consommation d'énergie.
Suivre les bonnes pratiques pour les opérations d'IA et de ML
Les pratiques opérationnelles ont un impact considérable sur la durabilité de vos charges de travail d'IA et de ML. Tenez compte des recommandations suivantes.
Optimiser les processus d'entraînement des modèles
Utilisez les techniques suivantes pour optimiser vos processus d'entraînement de modèles :
- Arrêt prématuré : surveillez le processus d'entraînement et arrêtez-le lorsque vous n'observez plus d'amélioration des performances du modèle par rapport à l'ensemble de validation. Cette technique vous permet d'éviter les calculs et la consommation d'énergie inutiles.
- Chargement efficace des données : utilisez des pipelines de données efficaces pour vous assurer que les GPU et les TPU sont toujours utilisés et n'attendent pas les données. Cette technique permet de maximiser l'utilisation des ressources et de réduire le gaspillage d'énergie.
- Réglage optimisé des hyperparamètres : pour trouver plus efficacement les hyperparamètres optimaux, utilisez des techniques telles que l'optimisation bayésienne ou l'apprentissage par renforcement. Évitez les recherches exhaustives dans la grille, qui peuvent être des opérations gourmandes en ressources.
Améliorer l'efficacité de l'inférence
Pour améliorer l'efficacité des tâches d'inférence de l'IA, utilisez les techniques suivantes :
- Traitement par lot : regroupez plusieurs requêtes d'inférence dans des lots et profitez du traitement parallèle sur les GPU et les TPU. Cette technique permet de réduire le coût énergétique par prédiction.
- Mise en cache avancée : implémentez une stratégie de mise en cache multicouche, qui inclut la mise en cache clé-valeur (KV) pour la génération autorégressive et la mise en cache des requêtes sémantiques pour les réponses des applications. Cette technique permet de contourner les calculs de modèles redondants et peut entraîner une réduction significative de la consommation d'énergie et des émissions de carbone.
Mesurer et surveiller
Surveillez et mesurez les paramètres suivants :
- Utilisation et coût : utilisez les outils appropriés pour suivre l'utilisation des jetons, la consommation d'énergie et l'empreinte carbone de vos charges de travail d'IA. Ces données vous aident à identifier les opportunités d'optimisation et à rendre compte des progrès réalisés vers les objectifs de développement durable.
- Performances : surveillez en continu les performances du modèle en production.
Identifier les problèmes tels que la dérive des données, qui peuvent indiquer que le modèle doit être affiné à nouveau. Si vous devez réentraîner le modèle, vous pouvez utiliser le modèle affiné d'origine comme point de départ et gagner ainsi beaucoup de temps, d'argent et d'énergie pour les mises à jour.
- Pour suivre les métriques de performances, utilisez Cloud Monitoring.
- Pour corréler les modifications du modèle avec les améliorations des métriques de performances, utilisez les annotations d'événements.
Pour en savoir plus sur l'opérationnalisation de l'amélioration continue, consultez Mesurer et améliorer en continu la durabilité.
Implémenter la planification tenant compte des émissions de carbone
Concevez vos jobs de pipeline de ML pour qu'ils s'exécutent dans des régions où le mix énergétique est le plus propre. Utilisez le rapport "Empreinte carbone" pour identifier les régions les moins intensives en carbone. Planifiez les tâches gourmandes en ressources sous forme de jobs par lot pendant les périodes où le réseau électrique local présente un pourcentage plus élevé d'énergie décarbonée (CFE).
Optimisez les pipelines de données
Les opérations de ML et le réglage précis nécessitent un ensemble de données propre et de haute qualité. Avant de lancer des jobs de ML, utilisez des services de traitement de données gérés pour préparer efficacement les données. Par exemple, utilisez Dataflow pour le traitement par flux et par lot, et Dataproc pour les pipelines Spark et Hadoop gérés. Un pipeline de données optimisé permet de s'assurer que votre charge de travail d'affinage n'attend pas les données. Vous pouvez ainsi maximiser l'utilisation des ressources et réduire le gaspillage d'énergie.
Adopter le MLOps
Pour automatiser et gérer l'ensemble du cycle de vie du ML, mettez en œuvre les pratiques MLOps (ML Operations). Ces pratiques permettent de s'assurer que les modèles sont surveillés, validés et redéployés en continu et de manière efficace, ce qui permet d'éviter les entraînements ou les allocations de ressources inutiles.
Utiliser des services gérés
Au lieu de gérer votre propre infrastructure, utilisez des services cloud gérés comme Vertex AI. La plate-forme cloud gère la gestion des ressources sous-jacente, ce qui vous permet de vous concentrer sur le processus d'ajustement précis. Utilisez des services qui incluent des outils intégrés pour l'optimisation des hyperparamètres, la surveillance des modèles et la gestion des ressources.
Étapes suivantes
- Quelle quantité d'énergie l'IA de Google utilise-t-elle ? Nous avons fait le calcul
- Ironwood : le premier TPU de Google pour l'ère de l'inférence
- Rapport environnemental 2025 de Google sur le développement durable
- Apprentissage en contexte plus efficace avec GLaM
- Présentation de la mise en cache de contexte