优化 AI 和机器学习工作负载,以提高能效

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework 的可持续性核心中的这一原则提供了一些建议,可帮助您优化 AI 和机器学习工作负载,以减少其能耗和碳足迹。

原则概览

如需优化 AI 和机器学习工作负载以实现可持续性,您需要采用一种整体方法来设计、部署和运行工作负载。选择合适的模型和专用硬件(例如张量处理单元 [TPU]),在低碳区域运行工作负载,优化以减少资源使用量,并应用运营最佳实践。

优化 AI 和机器学习工作负载的成本和性能的架构和运营实践本身就会减少能耗并降低碳足迹。Well-Architected Framework 中的 AI 和机器学习视角介绍了相关原则和建议,可帮助您设计、构建和管理 AI 和机器学习工作负载,以实现您的运营、安全、可靠性、成本和性能目标。此外,Cloud Architecture Center 还提供了 Google Cloud中 AI 和机器学习工作负载的详细参考架构和设计指南。

建议

如需优化 AI 和机器学习工作负载以提高能效,请考虑以下各部分中的建议。

使用 TPU 实现能效方面的架构设计

AI 和机器学习工作负载可能需要大量计算资源。AI 和机器学习工作负载的能耗是可持续发展方面的一项关键考虑因素。TPU 可显著提高 AI 和机器学习工作负载的能效和可持续性。

TPU 是定制设计的加速器,专门为 AI 和机器学习工作负载打造。TPU 的专用架构使其能够高效地进行大规模矩阵乘法运算,而这正是深度学习的基础。与 CPU 或 GPU 等通用处理器相比,TPU 可以更高效地大规模执行复杂任务。

TPU 可直接带来以下可持续发展方面的优势:

  • 能耗更低:TPU 经过精心设计,可实现最佳能效。它们可实现更高的每瓦能耗计算量。其专用架构可显著降低大规模训练和推理任务的功耗,从而降低运营成本减少能源消耗。
  • 更快的训练和推理速度:TPU 的卓越性能让您可以在数小时内(而不是数天内)训练复杂的 AI 模型。总计算时间的大幅缩短直接有助于减少环境足迹。
  • 降低了冷却需求:TPU 采用先进的液冷技术,可提供高效的散热管理,并大幅减少数据中心冷却能耗。
  • 优化 AI 生命周期:通过集成硬件和软件,TPU 可在整个 AI 生命周期(从数据处理到模型服务)中提供优化的解决方案。

遵循 4M 资源选择最佳实践

Google 建议了一组最佳实践,可显著降低 AI 和机器学习工作负载的能耗和碳排放量。我们将这些最佳实践称为 4M

  • 模型:选择高效的机器学习模型架构。例如,与密集模型相比,稀疏模型可将机器学习质量提高 3-10 倍,同时将计算量减少 3-10 倍。
  • 机器:选择针对机器学习训练进行优化的处理器和系统。与通用处理器相比,这些处理器的性能和能效可提高 2-5 倍。
  • 机械化:在云端部署计算密集型工作负载。与本地部署相比,您的工作负载使用的能源更少,排放量也降低了 1.4 到 2 倍。云数据中心采用经过定制设计的新型仓库,专为优化能源效率而打造,具有较高的能效 (PUE) 比率。本地数据中心通常较陈旧且规模较小,因此投资于节能型冷却和电力分配系统可能并不经济实惠。
  • 地图:选择 Google Cloud 使用最清洁能源的地点。 这种方法有助于将工作负载的总碳足迹减少 5-10 倍。如需了解详情,请参阅 Google Cloud 个区域的无碳能源数据

如需详细了解 4M 最佳实践和效率指标,请参阅以下研究论文:

优化 AI 模型和算法以进行训练和推理

AI 模型的架构以及用于训练和推理的算法对能耗有显著影响。请考虑以下建议。

选择高效的 AI 模型

选择更小、更高效且符合性能要求的 AI 模型。请勿选择最大的可用模型作为默认选择。例如,较小的精简模型版本(如 DistilBERT)与 BERT 等较大模型相比,可以提供类似的性能,但计算开销明显更低,推理速度也更快。

使用特定于网域的超高效解决方案

选择专门的机器学习解决方案,这些解决方案可提供更好的性能,并且所需的计算能力远低于大型基础模型。这些专业化解决方案通常经过预训练和超优化。它们可以显著降低训练和推理工作负载的能耗和研究工作量。以下是特定于领域的专业化解决方案的示例:

  • Earth AI 是一种能效出色的解决方案,可合成大量全球地理空间数据,从而提供及时、准确且富有实用价值的分析洞见。
  • 与传统的基于物理的方法相比,WeatherNext 可生成更快、更高效且高度准确的全球天气预报。

应用适当的模型压缩技术

以下是一些可用于模型压缩的技术示例:

  • 剪枝:从神经网络中移除不必要的参数。这些参数对模型性能的贡献不大。此技术可减小模型的大小,并减少推理所需的计算资源。
  • 量化:降低模型形参的精度。例如,将精度从 32 位浮点数降低到 8 位整数。此技术有助于显著减少内存占用和功耗,而不会明显降低准确率。
  • 知识蒸馏:训练较小的学生模型,以模仿较大、更复杂的教师模型的行为。学生模型可以使用更少的形参和更少的能量来实现高水平的性能。

使用专用硬件

遵循 4M 最佳实践来选择资源中所述,请选择针对机器学习训练进行优化的处理器和系统。与通用处理器相比,这些处理器的性能和能效可提高 2-5 倍。

使用参数高效微调

与其调整模型的所有数十亿个参数(全面微调),不如使用参数高效微调 (PEFT) 方法,例如低秩自适应 (LoRA)。使用此技术,您可以冻结原始模型的权重,并仅训练少量新的轻量级层。此方法有助于降低成本和能耗。

遵循 AI 和 ML 运营的最佳实践

运营实践会显著影响 AI 和机器学习工作负载的可持续性。请考虑以下建议。

优化模型训练流程

您可以使用以下技巧来优化模型训练流程:

  • 早停法:监控训练过程,当您发现模型在验证集上的性能不再提升时,停止训练。此技术有助于您避免不必要的计算和能耗。
  • 高效的数据加载:使用高效的数据流水线,确保 GPU 和 TPU 始终得到利用,而不会等待数据。此技术有助于最大限度地提高资源利用率并减少能源浪费。
  • 优化超参数调优:为了更高效地找到最佳超参数,请使用贝叶斯优化或强化学习等技术。避免进行详尽的网格搜索,因为这可能会消耗大量资源。

提高推理效率

如需提高 AI 推理任务的效率,请使用以下技术:

  • 批处理:将多个推理请求分批分组,并利用 GPU 和 TPU 进行并行处理。此技术有助于降低每次预测的能耗。
  • 高级缓存:实施多层缓存策略,包括用于自回归生成的键值 (KV) 缓存和用于应用响应的语义提示缓存。此技术有助于绕过冗余的模型计算,并可显著减少能耗和碳排放。

衡量和监控

监控和衡量以下参数:

  • 使用情况和费用:使用适当的工具跟踪 AI 工作负载的令牌使用情况、能耗和碳足迹。这些数据有助于您发现优化机会,并报告在实现可持续发展目标方面的进展。
  • 性能:持续监控模型在生产环境中的性能。 识别数据漂移等问题,这些问题可能表明模型需要再次进行微调。如果您需要重新训练模型,可以使用原始微调模型作为起点,从而节省大量更新时间、资金和精力。
    • 如需跟踪性能指标,请使用 Cloud Monitoring
    • 如需将模型更改与性能指标的改进相关联,请使用事件注释

如需详细了解如何将持续改进付诸实践,请参阅持续衡量和改进可持续性

实现碳感知型调度

设计机器学习流水线作业,使其在能源结构最清洁的区域运行。 使用碳足迹报告确定碳排放强度最低的区域。在本地电网的无碳能源 (CFE) 百分比较高的时段,将资源密集型任务安排为批处理作业。

优化数据流水线

机器学习操作和微调需要干净的高质量数据集。在开始机器学习作业之前,请使用托管式数据处理服务高效地准备数据。例如,使用 Dataflow 进行流处理和批处理,并使用 Dataproc 管理 Spark 和 Hadoop 流水线。优化的数据流水线有助于确保微调工作负载不会等待数据,从而最大限度地提高资源利用率并有助于减少能源浪费。

采用 MLOps

如需自动执行和管理整个机器学习生命周期,请实施 MLOps 实践。这些实践有助于确保模型得到持续监控、验证和高效重新部署,从而有助于防止不必要的训练或资源分配。

使用托管式服务

使用 Vertex AI 等托管式云服务,而不是自行管理基础设施。 云平台会处理底层资源管理,让您可以专注于微调流程。使用包含用于超参数调优、模型监控和资源管理的内置工具的服务。

后续步骤