Google Cloud 架構完善架構永續發展支柱的這項原則,提供最佳化 AI 和機器學習工作負載的建議,以減少能源用量和碳足跡。
原則總覽
如要盡可能減少 AI 和機器學習工作負載對環境的影響,您必須採用全方位做法,設計、部署及運作這些工作負載。選取適當的模型和專用硬體 (例如 Tensor Processing Unit (TPU))、在低碳排放量地區執行工作負載、最佳化以減少資源用量,以及採用營運最佳做法。
從架構和作業實務著手,盡可能降低 AI 和機器學習工作負載的成本並提升效能,自然就能減少能源消耗和碳足跡。架構完善架構中的「AI 和機器學習觀點」說明瞭相關原則和建議,可協助您設計、建構及管理 AI 和機器學習工作負載,達成營運、安全性、可靠性、成本和效能目標。此外,雲端架構中心也提供 Google Cloud中 AI 和機器學習工作負載的詳細參考架構和設計指南。
建議
如要盡可能提高 AI 和 ML 工作負載的能源效率,請參考下列各節的建議。
使用 TPU 建構節能架構
AI 和機器學習工作負載可能需要大量運算資源。AI 和機器學習工作負載的能源消耗是永續發展的重要考量。TPU 可大幅提升 AI 和機器學習工作負載的能源效率和永續性。
TPU 是專為 AI 和機器學習工作負載打造的特製加速器。TPU 的專用架構非常適合大規模矩陣乘法,這是深度學習的基礎。與 CPU 或 GPU 等一般用途的處理器相比,TPU 能以更高的效率大規模執行複雜工作。
TPU 可直接為永續發展帶來下列好處:
- 降低能源消耗:TPU 經過精心設計,可提供最佳能源效率。每瓦能源可提供更高的運算量。 這類架構專為大型訓練和推論工作設計,可大幅降低電力需求,進而減少營運成本和能源消耗。
- 加快訓練和推論速度:TPU 效能卓越,可讓您在幾小時內訓練複雜的 AI 模型,而非幾天。大幅縮短總運算時間,直接有助於減少環境足跡。
- 減少冷卻需求:TPU 採用先進的液體冷卻技術,可有效管理熱能,大幅減少資料中心冷卻作業的能源消耗。
- AI 生命週期最佳化:TPU 整合硬體和軟體,在整個 AI 生命週期中提供最佳化解決方案,從資料處理到模型服務皆適用。
遵循 4M 資源選取最佳做法
Google 建議採用一系列最佳做法,大幅減少 AI 和機器學習工作負載的能源用量和碳排放量。我們將這些最佳做法稱為「4M」:
- 模型:選取高效率的機器學習模型架構。舉例來說,與密集模型相比,稀疏模型可提高機器學習品質,並將運算資源用量減少 3 至 10 倍。
- 機器:選擇專為機器學習訓練最佳化的處理器和系統。與一般用途處理器相比,這些處理器的效能和能源效率可提升 2 至 5 倍。
- 自動化:在雲端部署耗用大量運算資源的工作負載。 與地端部署作業相比,您的工作負載可減少 1.4 到 2 倍的能源用量,並降低排放量。雲端資料中心採用專為節能而生的新型特製廠房,電力使用效能 (PUE) 比例極高。on-premises 資料中心通常規模較小且老舊,因此投資節能冷卻設備和配電系統可能不划算。
- 地圖:選取 Google Cloud 使用最潔淨能源的地點。 這個方法有助於將工作負載的碳足跡總量減少 5 到 10 倍。詳情請參閱「區域無碳能源 Google Cloud 」一文。
如要進一步瞭解 4M 最佳做法和效率指標,請參閱下列研究論文:
- 機器學習訓練的碳足跡將趨於平緩,然後縮小
- The data denter as a computer: An introduction to the design of warehouse-scale machines, second edition
針對訓練和推論最佳化 AI 模型和演算法
AI 模型的架構,以及用於訓練和推論的演算法,都會對能源消耗產生重大影響。請參考下列建議。
選取效率極佳的 AI 模型
選擇符合效能需求的較小且更有效率的 AI 模型。請勿選取最大的可用模型做為預設選項。舉例來說,與 BERT 等大型模型相比,DistilBERT 等較小的精煉模型版本,能以較少的運算負荷和更快的推論速度,提供類似的效能。
使用特定領域專屬的高效率解決方案
選擇專門的機器學習解決方案,這類解決方案的效能較佳,且所需的運算能力遠低於大型基礎模型。這些專業解決方案通常經過預先訓練和超最佳化調整,這類晶片可大幅減少訓練和推論工作負載的能源消耗量,並降低研究工作量。以下列舉幾個特定領域的專業解決方案:
- Earth AI 是一項節能解決方案,可綜合分析大量全球地理空間資料,提供及時、準確且可做為行動依據的洞察資訊。
- WeatherNext 的全球天氣預報速度更快、效率更高,準確度也比傳統的物理方法更高。
套用適當的模型壓縮技術
以下列舉幾種模型壓縮技術:
- 剪枝:從神經網路中移除不必要的參數。這些參數對模型效能的貢獻不大。這項技術可縮減模型大小,並減少推論所需的運算資源。
- 量化:降低模型參數的精確度。舉例來說,將精確度從 32 位元浮點數降至 8 位元整數。這項技術有助於大幅減少記憶體用量和耗電量,且準確率不會明顯降低。
- 知識蒸餾:訓練較小的學生模型,模仿較大型複雜老師模型的行為。學員模型可使用較少的參數和能源,達到高水準的效能。
使用專門硬體
如「遵循 4M 最佳做法選取資源」一文所述,請選擇經過最佳化處理的 ML 訓練處理器和系統。與一般用途處理器相比,這些處理器的效能和能源效率可提升 2 至 5 倍。
使用高效參數微調
不必調整模型的所有數十億個參數 (完整微調),而是使用低秩適應 (LoRA) 等參數高效微調 (PEFT) 方法。使用這項技術時,您會凍結原始模型的權重,只訓練少量的新輕量層。這個方法有助於降低成本和能源消耗。
遵循 AI 和機器學習作業的最佳做法
作業實務會大幅影響 AI 和機器學習工作負載的永續性。請參考下列建議。
最佳化模型訓練程序
請使用下列技巧,最佳化模型訓練程序:
- 提早停止:監控訓練過程,如果模型在驗證集上的成效沒有進一步提升,請停止訓練。這項技術可協助您避免不必要的運算和能源消耗。
- 有效率地載入資料:使用有效率的資料管道,確保 GPU 和 TPU 隨時都能派上用場,不會等待資料。這項技術有助於盡量提高資源使用率,並減少能源浪費。
- 最佳化超參數調整:如要更有效率地找出最佳超參數,請使用貝氏最佳化或強化學習等技術。避免進行耗盡資源的格線搜尋作業。
提高推論效率
如要提升 AI 推論工作的效率,請使用下列技術:
- 批次處理:將多個推論要求分組為批次,並充分運用 GPU 和 TPU 的平行處理功能。這項技術有助於降低每次預測的能源成本。
- 進階快取:實作多層快取策略,包括用於自迴歸生成的鍵/值 (KV) 快取,以及用於應用程式回應的語意提示快取。這項技術有助於略過多餘的模型運算,大幅減少能源用量和碳排放量。
評估及監控
監控及評估下列參數:
- 用量和費用:使用適當的工具追蹤 AI 工作負載的權杖用量、能源消耗量和碳足跡。這項資料有助於找出最佳化機會,並回報永續發展目標的進展。
- 成效:持續監控模型在正式環境中的成效。
找出資料偏移等問題,這類問題可能表示模型需要再次微調。如果需要重新訓練模型,您可以將原始微調模型做為起點,大幅節省更新所需的時間、金錢和能源。
- 如要追蹤效能指標,請使用 Cloud Monitoring。
- 如要將模型變更與成效指標的改善情況建立關聯,請使用事件註解。
如要進一步瞭解如何落實持續改善,請參閱「持續評估及改善永續發展」。
實作碳感知排程
設計機器學習管道作業,在能源組合最乾淨的區域執行。 使用碳足跡報告找出碳排放量最低的區域。在當地電網使用無碳能源 (CFE) 的比例較高時,將耗用大量資源的工作排定為批次工作。
最佳化資料 pipeline
機器學習作業和微調需要乾淨的高品質資料集。開始執行機器學習工作前,請先使用代管資料處理服務有效準備資料。舉例來說,您可以使用 Dataflow 進行串流和批次處理,並使用 Dataproc 管理 Spark 和 Hadoop 管道。最佳化資料管道可確保微調工作負載不會等待資料,因此您能盡量提高資源使用率,並減少能源浪費。
採用機器學習運作
如要自動化及管理整個機器學習生命週期,請導入機器學習運作 (MLOps) 做法。這些做法有助於確保模型持續受到監控、驗證及有效率地重新部署,進而避免不必要的訓練或資源分配。
使用代管服務
使用 Vertex AI 等代管雲端服務,不必自行管理基礎架構。 雲端平台會處理基礎資源管理作業,讓您專注於微調程序。使用內建超參數調整、模型監控和資源管理工具的服務。
後續步驟
- Google AI 使用多少能源?我們已完成計算
- Ironwood:第一款專為推論作業打造的 Google TPU
- Google 永續發展 2025 年環保報告
- 使用 GLaM 提升情境內學習效率
- 脈絡快取總覽