Este principio del pilar de sustentabilidad del Google Cloud Well-Architected Framework proporciona recomendaciones para optimizar las cargas de trabajo de IA y AA con el objetivo de reducir su uso de energía y su huella de carbono.
Descripción general del principio
Para optimizar las cargas de trabajo de IA y AA en función de la sustentabilidad, debes adoptar un enfoque integral para diseñar, implementar y operar las cargas de trabajo. Seleccionamos modelos adecuados y hardware especializado, como las unidades de procesamiento tensorial (TPU), ejecutamos las cargas de trabajo en regiones con bajas emisiones de carbono, optimizamos el uso de recursos y aplicamos prácticas recomendadas operativas.
Las prácticas operativas y de arquitectura que optimizan el costo y el rendimiento de las cargas de trabajo de IA y AA generan, de forma inherente, un menor consumo de energía y una menor huella de carbono. La perspectiva de IA y AA del Framework de Well-Architected describe principios y recomendaciones para diseñar, compilar y administrar cargas de trabajo de IA y AA que cumplan con tus objetivos operativos, de seguridad, confiabilidad, costo y rendimiento. Además, el Centro de arquitectura de Cloud proporciona arquitecturas de referencia detalladas y guías de diseño para cargas de trabajo de IA y AA en Google Cloud.
Recomendaciones
Para optimizar las cargas de trabajo de IA y AA en función de la eficiencia energética, considera las recomendaciones de las siguientes secciones.
Diseña para la eficiencia energética con las TPU
Las cargas de trabajo de IA y AA pueden requerir un procesamiento intensivo. El consumo de energía de las cargas de trabajo de IA y AA es una consideración clave para la sustentabilidad. Las TPU te permiten mejorar significativamente la eficiencia energética y la sustentabilidad de tus cargas de trabajo de IA y AA.
Las TPU son aceleradores de diseño personalizado creados específicamente para cargas de trabajo de IA y AA. La arquitectura especializada de las TPU las hace muy eficaces para la multiplicación de matrices a gran escala, que es la base del aprendizaje profundo. Las TPU pueden realizar tareas complejas a gran escala con mayor eficiencia que los procesadores de uso general, como las CPU o las GPU.
Las TPU proporcionan los siguientes beneficios directos para la sustentabilidad:
- Menor consumo energético: Las TPU están diseñadas para lograr una eficiencia energética óptima. Ofrecen más cálculos por vatio de energía consumida. Su arquitectura especializada reduce significativamente las demandas de energía de las tareas de inferencia y entrenamiento a gran escala, lo que genera una disminución de los costos operativos y un menor consumo de energía.
- Entrenamiento e inferencia más rápidos: El rendimiento excepcional de las TPU te permite entrenar modelos de IA complejos en horas en lugar de días. Esta reducción significativa en el tiempo de procesamiento total contribuye directamente a una menor huella ambiental.
- Menor necesidad de enfriamiento: Las TPU incorporan un sistema avanzado de enfriamiento líquido, que proporciona una administración térmica eficiente y reduce significativamente la energía que se usa para enfriar el centro de datos.
- Optimización del ciclo de vida de la IA: Al integrar hardware y software, las TPU proporcionan una solución optimizada en todo el ciclo de vida de la IA, desde el procesamiento de datos hasta la entrega de modelos.
Sigue las prácticas recomendadas de las 4 M para la selección de recursos
Google recomienda un conjunto de prácticas recomendadas para reducir significativamente el uso de energía y las emisiones de carbono en las cargas de trabajo de IA y AA. Llamamos a estas prácticas recomendadas las 4Ms:
- Modelo: Selecciona arquitecturas de modelos de AA eficientes. Por ejemplo, los modelos dispersos mejoran la calidad del AA y reducen la computación de 3 a 10 veces en comparación con los modelos densos.
- Máquina: Elige procesadores y sistemas optimizados para el entrenamiento de AA. Estos procesadores mejoran el rendimiento y la eficiencia energética entre 2 y 5 veces en comparación con los procesadores de uso general.
- Mecanización: Implementa tus cargas de trabajo con alto consumo de procesamiento en la nube. Tus cargas de trabajo usan menos energía y generan entre 1.4 y 2 veces menos emisiones en comparación con las implementaciones locales. Los centros de datos de Cloud usan almacenes más nuevos y con diseño personalizado que se construyen para la eficiencia energética y tienen una alta proporción de eficacia del uso de energía (PUE). Los centros de datos locales suelen ser más antiguos y pequeños, por lo que las inversiones en sistemas de distribución de energía y enfriamiento eficientes podrían no ser económicas.
- Mapa: Selecciona Google Cloud ubicaciones que usan la energía más limpia. Este enfoque ayuda a reducir la huella de carbono bruta de tus cargas de trabajo entre 5 y 10 veces. Para obtener más información, consulta Energía sin emisiones de carbono para las regiones de Google Cloud .
Para obtener más información sobre las prácticas recomendadas y las métricas de eficiencia de las 4 M, consulta los siguientes documentos de investigación:
- La huella de carbono del entrenamiento del aprendizaje automático se estabilizará y, luego, se reducirá
- The data center as a computer: An introduction to the design of warehouse-scale machines, second edition (El centro de datos como una computadora: Introducción al diseño de máquinas a escala de almacén, segunda edición)
Optimizar los modelos y algoritmos de IA para el entrenamiento y la inferencia
La arquitectura de un modelo de IA y los algoritmos que se usan para el entrenamiento y la inferencia tienen un impacto significativo en el consumo de energía. Ten en cuenta las siguientes recomendaciones.
Selecciona modelos de IA eficientes
Elige modelos de IA más pequeños y eficientes que cumplan con tus requisitos de rendimiento. No selecciones el modelo más grande disponible como opción predeterminada. Por ejemplo, una versión más pequeña y sintetizada del modelo, como DistilBERT, puede ofrecer un rendimiento similar con una sobrecarga computacional significativamente menor y una inferencia más rápida que un modelo más grande, como BERT.
Usar soluciones hiper eficientes y específicas del dominio
Elige soluciones de AA especializadas que proporcionen un mejor rendimiento y requieran mucha menos potencia de procesamiento que un modelo fundamental grande. Estas soluciones especializadas suelen estar previamente entrenadas y optimizadas. Pueden proporcionar reducciones significativas en el consumo de energía y el esfuerzo de investigación para las cargas de trabajo de entrenamiento y de inferencia. A continuación, se incluyen ejemplos de soluciones especializadas específicas del dominio:
- Earth AI es una solución de eficiencia energética que sintetiza grandes cantidades de datos geoespaciales globales para proporcionar estadísticas oportunas, precisas y prácticas.
- WeatherNext produce pronósticos meteorológicos globales más rápidos, eficientes y precisos en comparación con los métodos convencionales basados en la física.
Aplica técnicas de compresión de modelos adecuadas
A continuación, se muestran ejemplos de técnicas que puedes usar para la compresión de modelos:
- Poda: Quita los parámetros innecesarios de una red neuronal. Son parámetros que no contribuyen de manera significativa al rendimiento de un modelo. Esta técnica reduce el tamaño del modelo y los recursos de procesamiento necesarios para la inferencia.
- Cuantización: Reduce la precisión de los parámetros del modelo. Por ejemplo, reduce la precisión de punto flotante de 32 bits a números enteros de 8 bits. Esta técnica puede ayudar a reducir de manera significativa el uso de memoria y el consumo de energía sin una reducción notable en la precisión.
- Destilación de conocimiento: Entrena un modelo estudiante más pequeño para imitar el comportamiento de un modelo profesor más grande y complejo. El modelo estudiante puede alcanzar un alto nivel de rendimiento con menos parámetros y con un menor consumo de energía.
Usar hardware especializado
Como se mencionó en Sigue las prácticas recomendadas de las 4M para la selección de recursos, elige procesadores y sistemas optimizados para el entrenamiento de AA. Estos procesadores mejoran el rendimiento y la eficiencia energética de 2 a 5 veces en comparación con los procesadores de uso general.
Usa el ajuste eficiente de parámetros
En lugar de ajustar todos los miles de millones de parámetros de un modelo (ajuste completo), usa métodos de ajuste eficiente de parámetros (PEFT) como la adaptación de bajo rango (LoRA). Con esta técnica, detienes los pesos del modelo original y solo entrenas una pequeña cantidad de capas nuevas y ligeras. Este enfoque ayuda a reducir el costo y el consumo de energía.
Sigue las prácticas recomendadas para las operaciones de IA y AA
Las prácticas operativas afectan significativamente la sostenibilidad de tus cargas de trabajo de IA y AA. Ten en cuenta las siguientes recomendaciones.
Optimiza los procesos de entrenamiento de modelos
Usa las siguientes técnicas para optimizar los procesos de entrenamiento de tu modelo:
- Interrupción anticipada: Supervisa el proceso de entrenamiento y deténlo cuando no observes más mejoras en el rendimiento del modelo en comparación con el conjunto de validación. Esta técnica te ayuda a evitar cálculos y consumo de energía innecesarios.
- Carga de datos eficiente: Usa canalizaciones de datos eficientes para garantizar que las GPUs y las TPUs siempre se utilicen y no esperen datos. Esta técnica ayuda a maximizar el uso de los recursos y reducir el desperdicio de energía.
- Ajuste de hiperparámetros optimizado: Para encontrar hiperparámetros óptimos de manera más eficiente, usa técnicas como la optimización bayesiana o el aprendizaje por refuerzo. Evita las búsquedas exhaustivas en cuadrícula, que pueden ser operaciones que consumen muchos recursos.
Mejora la eficiencia de la inferencia
Para mejorar la eficiencia de las tareas de inferencia de IA, usa las siguientes técnicas:
- Procesamiento por lotes: Agrupa varias solicitudes de inferencia en lotes y aprovecha el procesamiento paralelo en GPUs y TPUs. Esta técnica ayuda a reducir el costo de energía por predicción.
- Almacenamiento en caché avanzado: Implementa una estrategia de almacenamiento en caché de varias capas, que incluye el almacenamiento en caché de clave-valor (KV) para la generación autorregresiva y el almacenamiento en caché de instrucciones semánticas para las respuestas de la aplicación. Esta técnica ayuda a evitar los cálculos redundantes del modelo y puede generar reducciones significativas en el uso de energía y las emisiones de carbono.
Medición y supervisión
Supervisa y mide los siguientes parámetros:
- Uso y costo: Usa las herramientas adecuadas para hacer un seguimiento del uso de tokens, el consumo de energía y la huella de carbono de tus cargas de trabajo de IA. Estos datos te ayudan a identificar oportunidades de optimización y a informar el progreso hacia los objetivos de sustentabilidad.
- Rendimiento: Supervisa continuamente el rendimiento del modelo en producción.
Identificar problemas como la desviación de los datos, que puede indicar que el modelo debe volver a ajustarse Si necesitas volver a entrenar el modelo, puedes usar el modelo original ajustado como punto de partida y ahorrar una cantidad significativa de tiempo, dinero y energía en las actualizaciones.
- Para hacer un seguimiento de las métricas de rendimiento, usa Cloud Monitoring.
- Para correlacionar los cambios en el modelo con las mejoras en las métricas de rendimiento, usa las anotaciones de eventos.
Para obtener más información sobre cómo poner en práctica la mejora continua, consulta Cómo medir y mejorar la sustentabilidad de forma continua.
Implementa la programación que tiene en cuenta las emisiones de carbono
Diseña tus trabajos de canalización de AA para que se ejecuten en regiones con la combinación de energía más limpia. Usa el informe de Huella de carbono para identificar las regiones con menor intensidad de carbono. Programa tareas que consumen muchos recursos como trabajos por lotes durante los períodos en los que la red eléctrica local tiene un mayor porcentaje de energía sin emisiones de carbono (CFE).
Optimiza las canalizaciones de datos
Las operaciones de AA y el ajuste fino requieren un conjunto de datos limpio y de alta calidad. Antes de iniciar trabajos de AA, usa servicios administrados de procesamiento de datos para preparar los datos de manera eficiente. Por ejemplo, usa Dataflow para el procesamiento por lotes y de transmisión, y Dataproc para las canalizaciones administradas de Spark y Hadoop. Una canalización de datos optimizada ayuda a garantizar que tu carga de trabajo de ajuste fino no espere datos, por lo que puedes maximizar la utilización de recursos y ayudar a reducir el desperdicio de energía.
Adopta las MLOps
Para automatizar y administrar todo el ciclo de vida del AA, implementa prácticas de operaciones de AA (MLOps). Estas prácticas ayudan a garantizar que los modelos se supervisen, validen y vuelvan a implementar de forma eficiente, lo que ayuda a evitar el entrenamiento innecesario o la asignación de recursos.
Usa servicios administrados
En lugar de administrar tu propia infraestructura, usa servicios administrados en la nube, como Vertex AI. La plataforma de nube controla la administración de recursos subyacente, lo que te permite enfocarte en el proceso de ajuste. Usa servicios que incluyan herramientas integradas para el ajuste de hiperparámetros, la supervisión de modelos y la administración de recursos.
¿Qué sigue?
- ¿Cuánta energía usa la IA de Google? Hicimos los cálculos
- Ironwood: La primera TPU de Google para la era de la inferencia
- Informe de impacto ambiental de Sustentabilidad en Google 2025
- Aprendizaje en contexto más eficiente con GLaM
- Descripción general del almacenamiento en caché del contexto