Google Cloud Well-Architected Framework 的永續發展支柱提供相關建議,協助您設計、建構及管理節能且能因應碳排放量的工作負載。 Google Cloud
本文件適用於決策者、架構師、管理員、開發人員和營運人員,協助他們在 Google Cloud中設計、建構、部署及維護工作負載。
架構和作業決策會對雲端工作負載的能源用量、用水影響和碳足跡造成重大影響。無論是小型網站還是大型 ML 模型,每項工作負載都會消耗能源,並造成碳排放和水資源密集度。將永續發展納入雲端架構和設計流程,有助於建構高效、符合成本效益且環境永續的系統。永續架構具有彈性且經過最佳化,可形成正向回饋迴路,進而提高效率、降低成本及減少對環境的影響。
永續設計:全面業務成果
永續發展並非與其他核心業務目標互斥,永續發展實務反而有助於加速達成其他業務目標。優先採用低碳資源和作業的架構選擇,有助於建構速度更快、成本更低且更安全的系統。這類系統可視為永續設計,因為最佳化永續性可帶來整體正面成果,包括效能、成本、安全性、復原能力和使用者體驗。
效能最佳化
效能最佳化的系統本來就會減少資源用量。如果應用程式效率良好,能更快完成工作,所需的運算資源時間就會較短。因此,基礎硬體的耗電量 (以千瓦時為單位) 會減少。最佳化效能也能縮短延遲時間,提供更優質的使用者體驗。資源不會因等待效率不彰的程序而浪費時間和能源。使用專用硬體 (例如 GPU 和 TPU)、採用高效率演算法,並盡量執行平行處理,即可提升效能並減少雲端工作負載的碳足跡。
成本最佳化
雲端營運支出取決於資源用量。由於兩者直接相關,因此持續最佳化成本時,您也能減少能源消耗和碳排放量。適當調整 VM 大小、積極實作自動調度資源、封存舊資料,以及淘汰閒置資源,即可減少資源用量和雲端費用。此外,資料中心運作工作負載時消耗的能源較少,因此系統的碳足跡也會減少。
安全性和彈性
安全性和可靠性是永續雲端環境的先決條件。遭入侵的系統 (例如受到阻斷服務 (DoS) 攻擊或未經授權的資料外洩影響的系統) 可能會大幅增加資源耗用量。這些事件可能會導致流量大幅飆升、產生失控的運算週期以進行緩解,並需要長時間進行高耗能的鑑識分析、清除和資料還原作業。強大的安全措施有助於避免資源用量不必要的尖峰,確保營運穩定、可預測且節能。
使用者體驗
如果系統優先考量效率、效能、無障礙功能和資料用量,就能協助使用者減少能源消耗。應用程式載入較小的模型或處理較少的資料,可更快提供結果,有助於減少網路裝置和使用者裝置消耗的能源。這項節省能源的措施特別適合頻寬有限或使用舊裝置的使用者。此外,永續架構有助於減少對地球的危害,並展現您對社會責任技術的承諾。
遷移至雲端的永續發展價值
將地端工作負載遷移至雲端,有助於減少貴機構的環境足跡。與一般地端部署作業相比,改用雲端基礎架構可減少 1.4 至 2 倍的能源用量和相關排放量。雲端資料中心是現代化設施,專為高電力使用效能 (PUE) 而設計。舊式地端資料中心通常缺乏足夠的規模,無法證明投資先進冷卻和配電系統的合理性。
共同責任與命運共同體
共同責任和命運共同體 Google Cloud 說明雲端工作負載的安全性是 Google 和客戶共同的責任。這項共同責任模式也適用於永續發展。
Google 負責 Google Cloud永續發展,也就是資料中心、基礎架構和核心服務的能源效率和水資源管理。我們持續投資再生能源、具氣候變遷意識的冷卻技術,以及硬體最佳化。如要進一步瞭解 Google 的永續發展策略和進展,請參閱《Google Sustainability 2025 Environmental Report》。
客戶須負責雲端永續發展,也就是最佳化工作負載,提高能源效率。舉例來說,您可以適當調整資源大小、使用可調度至零的無伺服器服務,以及有效管理資料生命週期。
我們也提倡命運共同體模式:永續發展不僅是工作分工,更是您與 Google 之間的合作夥伴關係,共同為整個生態系統減少環境足跡。
運用 AI 提升業務成效
架構完善架構的永續發展支柱 (本文件) 包含相關指引,可協助您設計永續的 AI 系統。不過,全面的永續發展策略不僅要考量 AI 工作負載對環境的影響,這項策略應包含如何運用 AI 提升作業效率,以及創造新的商機。
AI 可將大量資料集轉換為可執行的洞察資料,進而促進永續發展。協助組織從被動因應法規轉為主動進行最佳化,例如:
- 作業效率:透過改善庫存管理、最佳化供應鏈和智慧能源管理,簡化作業流程。
- 資訊公開和風險:使用資料進行精細的供應鏈資訊公開、法規遵循和氣候風險模擬。
- 價值和成長:在永續金融和再商務領域開發新的收益來源。
Google 提供下列產品和功能,協助您從資料中取得洞察資訊,並建構永續發展能力:
- Google 地球 AI: 運用全球規模的地理空間資料分析環境變化,並監控供應鏈影響。
- WeatherNext: 提供進階天氣預報和氣候風險分析,協助您因應氣候變遷。
- 透過 Google 地球取得地理空間洞察資料: 運用地理空間資料為地點新增豐富的脈絡資料,有助於更明智地選擇地點、規劃資源和營運。
- Google 地圖路線最佳化: 最佳化物流和配送路線,提高效率並減少燃料消耗和運輸排放量。
與合作夥伴和客戶協作
Google Cloud 和 TELUS 攜手合作,將工作負載遷移至 Google 的碳中和基礎架構,並運用資料分析技術提升營運效率,共同推動雲端永續發展。這項合作計畫透過智慧城市技術等措施,為社會和環境帶來益處。智慧城市技術會使用即時資料,減少加拿大各市鎮的交通壅塞情形和碳排放量。如要進一步瞭解這項合作計畫,請參閱「Google Cloud Google 與 TELUS 攜手推動永續發展」。
核心原則
架構完善架構永續發展支柱的建議事項,對應至下列核心原則:
- 使用消耗低碳能源的區域
- 最佳化 AI 和機器學習工作負載,提高能源效率
- 充分運用資源,促進永續發展
- 開發節能軟體
- 最佳化資料和儲存空間,實現永續發展目標
- 持續評估及改善永續發展措施
- 推廣永續發展文化
- 根據產業指南調整永續發展做法
貢獻者
作者:Brett Tackaberry | 首席架構師
其他貢獻者:
- Alex Stepney | 主要架構師
- Daniel Lees | 雲端安全架構師
- Denise Pearl | 永續發展全球行銷主管
- Kumar Dhanagopal | 跨產品解決方案開發人員
- Laura Hyatt | 客戶工程師,金融服務業
- Nicolas Pintaux | 客戶工程師、應用程式現代化專家
- Radhika Kanakam | Google Cloud Well-Architected Framework 計畫主管
使用低碳能源消耗量較低的區域
Google Cloud 架構完善架構的永續發展支柱中,這項原則提供相關建議,協助您在 Google Cloud中為工作負載選取低碳區域。
原則總覽
在 Google Cloud中部署工作負載時,選擇工作負載的 Google Cloud 區域是重要的架構決策。這項決定會影響工作負載的碳足跡。為盡量減少碳足跡,您選取區域的策略必須包含下列元素:
- 根據資料選取:如要找出並優先處理區域,請考量
「低 CO2」指標和無碳能源 (CFE) 指標。
- 以政策為基礎的控管:在機構政策服務中使用資源位置限制,將資源建立位置限制在環境最佳位置。
- 作業彈性:運用時間轉移和碳排放量感知排程等技術,在電網碳排放強度最低的時段執行批次工作負載。
在雲端為應用程式和工作負載供電所用的電力,是影響您選擇 Google Cloud 區域的重要因素。此外,請考慮下列因素:
- 資料落地和主權:您必須將資料儲存在哪個位置,是決定選擇 Google Cloud區域的基本因素。這項選擇會影響您是否符合當地資料落地規定。
- 使用者延遲時間:使用者與應用程式部署區域之間的地理距離,會影響使用者體驗和應用程式效能。
- 費用:不同區域的 Google Cloud 資源價格可能不同。
Google Cloud 區域挑選工具可根據碳足跡、成本和延遲時間需求,協助您選取最佳 Google Cloud 區域。您也可以使用 Cloud Location Finder,根據鄰近程度、無碳能源 (CFE) 使用量和其他參數,在 Google Cloud 和其他供應商中尋找雲端位置。
建議
如要在低碳排放量區域部署雲端工作負載,請參考下列各節的建議。這些建議是根據「區域無碳能源 Google Cloud 」一文中的指引提供。
瞭解雲端區域的碳強度
Google Cloud 區域中的資料中心會使用該區域電網的電力。Google 會使用無碳能源指標 (每小時計算一次) 測量區域的碳影響。CFE 指標代表每小時的能源總用量中,無碳能源所占的百分比。CFE 指標取決於兩項因素:
- 在特定期間為電網供電的發電廠類型。
- Google 歸因 在該期間供應給電網的潔淨能源。
如要瞭解各Google Cloud 區域每小時的平均 CFE% 匯總資訊,請參閱「區域無碳能源 Google Cloud 」。您也可以從 GitHub 的「Carbon free energy for Google Cloud regions」存放區和 BigQuery 公開資料集,取得這項資料的機器可讀格式。
將 CFE 納入選取位置的策略
請參考下列建議:
- 為應用程式選取最乾淨的區域。如果您打算長時間執行應用程式,請在 CFE% 最高的區域執行。對於批次工作負載,您可以預測工作負載的執行時間,因此在選擇區域時有更大的彈性。
- 選取低碳區域。網站的特定頁面和控制台的位置選取器會顯示 Google Cloud Google Cloud
「低 CO2」指標,指出碳排放量最低的區域。
- 使用資源位置機構政策限制,將資源建立位置限制在特定的低碳 Google Cloud區域。舉例來說,如要只允許在美國境內的低碳區域建立資源,請建立指定
in:us-low-carbon-locations值組的限制。
選取 Google Cloud 資源的位置時,請一併考量區域選取最佳做法,包括資料駐留規定、對終端使用者的延遲時間、應用程式的備援、服務可用性和價格等因素。
使用時段排程
電網的碳強度在一天中可能會大幅變動。實際碳排放量會因電網的能源組合而異。您可以排定工作負載 (尤其是彈性或非緊急工作負載) 的執行時間,讓電網供應的無碳能源比例較高時執行。
舉例來說,許多電網在離峰時段或太陽能和風能等再生能源為電網供應更多電力時,無碳能源百分比會較高。在碳排放強度較高的時段,排定模型訓練和大規模批次推論等運算密集型工作,即可大幅減少相關碳排放量,同時不影響效能或成本。這種做法稱為「時移」,也就是利用電網碳排放強度的動態特性,盡可能減少工作負載的碳排放量。
最佳化 AI 和機器學習工作負載,提升能源效率
Google Cloud 架構完善架構永續發展支柱的這項原則,提供最佳化 AI 和機器學習工作負載的建議,以減少能源用量和碳足跡。
原則總覽
如要盡可能減少 AI 和機器學習工作負載對環境的影響,您必須採用全方位做法,設計、部署及運作這些工作負載。選取適當的模型和專用硬體 (例如 Tensor Processing Unit (TPU))、在低碳排放量地區執行工作負載、最佳化以減少資源用量,以及採用營運最佳做法。
從架構和作業實務著手,盡可能降低 AI 和機器學習工作負載的成本並提升效能,自然就能減少能源消耗和碳足跡。架構完善架構中的「AI 和機器學習觀點」說明瞭相關原則和建議,可協助您設計、建構及管理 AI 和機器學習工作負載,達成營運、安全性、可靠性、成本和效能目標。此外,雲端架構中心也提供 Google Cloud中 AI 和機器學習工作負載的詳細參考架構和設計指南。
建議
如要盡可能提高 AI 和 ML 工作負載的能源效率,請參考下列各節的建議。
使用 TPU 建構節能架構
AI 和機器學習工作負載可能需要大量運算資源。AI 和機器學習工作負載的能源消耗是永續發展的重要考量。TPU 可大幅提升 AI 和機器學習工作負載的能源效率和永續性。
TPU 是專為 AI 和機器學習工作負載打造的特製加速器。TPU 的專用架構非常適合大規模矩陣乘法,這是深度學習的基礎。與 CPU 或 GPU 等一般用途的處理器相比,TPU 能以更高的效率大規模執行複雜工作。
TPU 可直接為永續發展帶來下列好處:
- 降低能源消耗:TPU 經過精心設計,可提供最佳能源效率。每瓦能源可提供更高的運算量。 這類架構專為大型訓練和推論工作設計,可大幅降低電力需求,進而減少營運成本和能源消耗。
- 加快訓練和推論速度:TPU 效能卓越,可讓您在幾小時內訓練複雜的 AI 模型,而非幾天。大幅縮短總運算時間,直接有助於減少環境足跡。
- 減少冷卻需求:TPU 採用先進的液體冷卻技術,可有效管理熱能,大幅減少資料中心冷卻作業的能源消耗。
- AI 生命週期最佳化:TPU 整合硬體和軟體,在整個 AI 生命週期中提供最佳化解決方案,從資料處理到模型服務皆適用。
遵循 4M 資源選取最佳做法
Google 建議採用一系列最佳做法,大幅減少 AI 和機器學習工作負載的能源用量和碳排放量。我們將這些最佳做法稱為「4M」:
- 模型:選取高效率的機器學習模型架構。舉例來說,與密集模型相比,稀疏模型可提高機器學習品質,並將運算資源用量減少 3 至 10 倍。
- 機器:選擇專為機器學習訓練最佳化的處理器和系統。與一般用途處理器相比,這些處理器的效能和能源效率可提升 2 至 5 倍。
- 自動化:在雲端部署耗用大量運算資源的工作負載。 與地端部署作業相比,您的工作負載可減少 1.4 到 2 倍的能源用量,並降低排放量。雲端資料中心採用專為節能而生的新型特製廠房,電力使用效能 (PUE) 比例極高。on-premises 資料中心通常規模較小且老舊,因此投資節能冷卻設備和配電系統可能不划算。
- 地圖:選取 Google Cloud 使用最潔淨能源的地點。 這個方法有助於將工作負載的碳足跡總量減少 5 到 10 倍。詳情請參閱「區域無碳能源 Google Cloud 」一文。
如要進一步瞭解 4M 最佳做法和效率指標,請參閱下列研究論文:
- 機器學習訓練的碳足跡將趨於平緩,然後縮小
- The data denter as a computer: An introduction to the design of warehouse-scale machines, second edition
針對訓練和推論最佳化 AI 模型和演算法
AI 模型的架構,以及用於訓練和推論的演算法,都會對能源消耗產生重大影響。請參考下列建議。
選取效率極佳的 AI 模型
選擇符合效能需求的較小且更有效率的 AI 模型。請勿選取最大的可用模型做為預設選項。舉例來說,與 BERT 等大型模型相比,DistilBERT 等較小的精煉模型版本,能以較少的運算負荷和更快的推論速度,提供類似的效能。
使用特定領域專屬的高效率解決方案
選擇專門的機器學習解決方案,這類解決方案的效能較佳,且所需的運算能力遠低於大型基礎模型。這些專業解決方案通常經過預先訓練和超最佳化調整,這類晶片可大幅減少訓練和推論工作負載的能源消耗量,並降低研究工作量。以下列舉幾個特定領域的專業解決方案:
- Earth AI 是一項節能解決方案,可綜合分析大量全球地理空間資料,提供及時、準確且可做為行動依據的洞察資訊。
- WeatherNext 的全球天氣預報速度更快、效率更高,準確度也比傳統的物理方法更高。
套用適當的模型壓縮技術
以下列舉幾種模型壓縮技術:
- 剪枝:從神經網路中移除不必要的參數。這些參數對模型效能的貢獻不大。這項技術可縮減模型大小,並減少推論所需的運算資源。
- 量化:降低模型參數的精確度。舉例來說,將精確度從 32 位元浮點數降至 8 位元整數。這項技術有助於大幅減少記憶體用量和耗電量,且準確率不會明顯降低。
- 知識蒸餾:訓練較小的學生模型,模仿較大型複雜老師模型的行為。學員模型可使用較少的參數和能源,達到高水準的效能。
使用專門硬體
如「遵循 4M 最佳做法選取資源」一文所述,請選擇經過最佳化處理的 ML 訓練處理器和系統。與一般用途處理器相比,這些處理器的效能和能源效率可提升 2 至 5 倍。
使用高效參數微調
不必調整模型的所有數十億個參數 (完整微調),而是使用低秩適應 (LoRA) 等參數高效微調 (PEFT) 方法。使用這項技術時,您會凍結原始模型的權重,只訓練少量的新輕量層。這個方法有助於降低成本和能源消耗。
遵循 AI 和機器學習作業的最佳做法
作業實務會大幅影響 AI 和機器學習工作負載的永續性。請參考下列建議。
最佳化模型訓練程序
請使用下列技巧,最佳化模型訓練程序:
- 提早停止:監控訓練過程,如果模型在驗證集上的成效沒有進一步提升,請停止訓練。這項技術可協助您避免不必要的運算和能源消耗。
- 有效率地載入資料:使用有效率的資料管道,確保 GPU 和 TPU 隨時都能派上用場,不會等待資料。這項技術有助於盡量提高資源使用率,並減少能源浪費。
- 最佳化超參數調整:如要更有效率地找出最佳超參數,請使用貝氏最佳化或強化學習等技術。避免進行耗盡資源的格線搜尋作業。
提高推論效率
如要提升 AI 推論工作的效率,請使用下列技術:
- 批次處理:將多個推論要求分組為批次,並充分運用 GPU 和 TPU 的平行處理功能。這項技術有助於降低每次預測的能源成本。
- 進階快取:實作多層快取策略,包括用於自迴歸生成的鍵/值 (KV) 快取,以及用於應用程式回應的語意提示快取。這項技術有助於略過多餘的模型運算,大幅減少能源用量和碳排放量。
評估及監控
監控及評估下列參數:
- 用量和費用:使用適當的工具追蹤 AI 工作負載的權杖用量、能源消耗量和碳足跡。這項資料有助於找出最佳化機會,並回報永續發展目標的進展。
- 成效:持續監控模型在正式環境中的成效。
找出資料偏移等問題,這類問題可能表示模型需要再次微調。如果需要重新訓練模型,您可以將原始微調模型做為起點,大幅節省更新所需的時間、金錢和能源。
- 如要追蹤效能指標,請使用 Cloud Monitoring。
- 如要將模型變更與成效指標的改善情況建立關聯,請使用事件註解。
如要進一步瞭解如何落實持續改善,請參閱「持續評估及改善永續發展」。
實作碳感知排程
設計機器學習管道作業,在能源組合最乾淨的區域執行。 使用碳足跡報告找出碳排放量最低的區域。在當地電網使用無碳能源 (CFE) 的比例較高時,將耗用大量資源的工作排定為批次工作。
最佳化資料 pipeline
機器學習作業和微調需要乾淨的高品質資料集。開始執行機器學習工作前,請先使用代管資料處理服務有效準備資料。舉例來說,您可以使用 Dataflow 進行串流和批次處理,並使用 Dataproc 管理 Spark 和 Hadoop 管道。最佳化資料管道可確保微調工作負載不會等待資料,因此您能盡量提高資源使用率,並減少能源浪費。
採用機器學習運作
如要自動化及管理整個機器學習生命週期,請導入機器學習運作 (MLOps) 做法。這些做法有助於確保模型持續受到監控、驗證及有效率地重新部署,進而避免不必要的訓練或資源分配。
使用代管服務
使用 Vertex AI 等代管雲端服務,不必自行管理基礎架構。 雲端平台會處理基礎資源管理作業,讓您專注於微調程序。使用內建超參數調整、模型監控和資源管理工具的服務。
後續步驟
- Google AI 使用多少能源?我們已完成計算
- Ironwood:第一款專為推論作業打造的 Google TPU
- Google 永續發展 2025 年環保報告
- 使用 GLaM 提升情境內學習效率
- 脈絡快取總覽
充分運用資源,實現永續發展目標
Google Cloud 架構完善架構永續發展支柱的這項原則提供相關建議,協助您在 Google Cloud中,以最佳方式使用工作負載的資源。
原則總覽
充分運用資源是提升雲端環境永續性的關鍵。從運算週期到資料儲存空間,凡是佈建的資源都會直接影響能源用量、用水強度和碳排放量。如要減少工作負載對環境的影響,您必須在佈建、管理及使用雲端資源時做出明智的選擇。
建議
如要充分運用資源,請參考下列各節的建議。
導入自動和動態資源調度
自動和動態調整資源配置可確保資源使用率達到最佳狀態,有助於避免閒置或過度佈建的基礎架構造成能源浪費。減少能源浪費,降低成本和碳排放量。
請使用下列技術,實作自動和動態擴充性。
使用水平資源調度
對於大多數雲端優先應用程式而言,水平資源調度是較好的資源調度技術。您會新增執行個體來分散負載,而不是增加每個執行個體的大小 (稱為垂直擴展)。舉例來說,您可以使用代管執行個體群組 (MIG),自動擴充一組 Compute Engine VM。水平擴充基礎架構的復原能力較強,因為執行個體故障不會影響應用程式的可用性。對於負載量不穩定的應用程式,水平擴充也是節省資源的技術。
設定適當的資源調度政策
根據工作負載需求設定自動調度資源設定。定義應用程式行為專屬的自訂指標和門檻。 除了 CPU 使用率,您也可以考慮非同步工作佇列深度、要求延遲時間和自訂應用程式指標等指標。為避免頻繁且不必要的資源調度或擺盪,請定義明確的資源調度政策。舉例來說,如果是在 Google Kubernetes Engine (GKE) 中部署工作負載,請設定適當的叢集自動調度資源政策。
結合被動和主動式擴展
透過反應式調度,系統會根據即時負載變化進行調度。 這項技術適用於負載會突然大幅增加的應用程式。
主動式調度資源功能適合具有可預測模式的工作負載,例如固定的每日營業時間和每週報表產生作業。對於這類工作負載,請使用排程自動調度資源功能預先佈建資源,以便處理預期負載量。這項技術可避免資源爭用,確保使用者體驗更流暢,效率也更高。這項技術也有助於您主動規劃,因應已知的負載尖峰,例如大型銷售活動和重點行銷活動。
Google Cloud GKE Autopilot、Cloud Run 和 MIG 等代管服務和功能會從工作負載模式中學習,自動管理主動調度資源。根據預設,如果 Cloud Run 服務未收到任何流量,系統會將執行個體數量調度至零。
設計無狀態應用程式
如要水平擴充應用程式,其元件應為無狀態。也就是說,特定使用者的工作階段或資料不會與單一運算執行個體建立關聯。將工作階段狀態儲存在運算執行個體外部 (例如 Memorystore for Redis) 時,任何運算執行個體都能處理任何使用者的要求。這種設計方法可實現順暢且有效率的水平資源調度。
使用排程和批次作業
批次處理非常適合大規模的非緊急工作負載。批次工作可協助您提高工作負載的能源效率和成本效益。
請使用下列技術實作排程和批次工作。
低碳強度排程
排定批次作業在低碳區域執行,並選在當地電網使用高比例潔淨能源的時段執行。如要找出特定區域一天中碳排放量最低的時段,請使用碳足跡報告。
使用 Spot VM 處理非重要工作負載
Spot VM 可讓您以大幅折扣價,使用未使用的 Compute Engine 容量。Spot VM 可能遭到先占,但可讓您以符合成本效益的方式處理大型資料集,無須使用專屬的常時運作資源。Spot VM 非常適合非重要且容錯的批次工作。
合併及平行處理工作
為減少啟動和關閉個別工作的額外負擔,請將類似工作分組為單一大型批次。在 Batch 等服務上執行這些大量工作負載。這項服務會自動佈建及管理必要基礎架構,確保資源使用率達到最佳狀態。
使用代管服務
Batch 和 Dataflow 等代管服務會自動處理資源佈建、排程和監控作業。雲端平台會負責資源最佳化。您可以專注於應用程式邏輯。舉例來說,Dataflow 會根據管道中的資料量自動調度工作站數量,因此您不必為閒置資源付費。
根據工作負載需求選擇 VM 機器系列
可用於 Compute Engine VM 的機器類型會歸類為機器系列,這些系列經過最佳化,可處理不同的工作負載。根據工作負載需求,選擇合適的機器系列。
| 機器家族 | 建議用於工作負載類型 | 永續發展指南 |
|---|---|---|
| 一般用途執行個體 (E2、N2、N4、Tau T2A/T2D):這類執行個體提供 CPU 與記憶體的平衡比率。 | 網路伺服器、微服務、中小型資料庫和開發環境。 | E2 系列會動態分配資源,因此能源效率極高,且物超所值。Tau T2A 系列採用 Arm 架構處理器,這類處理器通常在大型工作負載中,每單位效能的能源效率更高。 |
| 運算最佳化執行個體 (C2、C3):這些執行個體提供高 vCPU 與記憶體比率,以及每個核心的高效能。 | 高效能運算 (HPC)、批次處理、遊戲伺服器和以 CPU 為基礎的資料分析。 | C 系列執行個體可加快完成 CPU 密集型工作,進而縮短工作總運算時間並減少能源消耗。 |
| 記憶體最佳化執行個體 (M3、M2):這類執行個體專為需要大量記憶體的工作負載設計。 | 大型記憶體內資料庫和資料倉儲,例如 SAP HANA 或記憶體內分析。 | 記憶體最佳化執行個體可將耗用大量記憶體的工作負載,整合到較少的實體節點上。相較於使用多個較小的執行個體,這種整合方式可減少總能源需求。高效能記憶體可縮短資料存取延遲時間,進而減少 CPU 處於活動狀態的總時間。 |
| 儲存空間最佳化執行個體 (Z3): 這類執行個體提供總處理量高、延遲時間短的本機 SSD 儲存空間。 | 資料倉儲、記錄檔分析,以及 SQL、NoSQL 和向量資料庫。 | 儲存空間最佳化執行個體會在本地處理大量資料集,有助於減少跨位置網路資料輸出所用的能源。使用本機儲存空間執行高 IOPS 工作時,可避免過度佈建多個標準執行個體。 |
| 加速器最佳化執行個體 (A3、A2、G2):這些執行個體專為 GPU 和 TPU 加速工作負載而建構,例如 AI、機器學習和 HPC。 | 機器學習模型訓練和推論,以及科學模擬。 | TPU 專為最佳能源效率而設計。每瓦可提供更高的運算量。 與僅使用 CPU 的替代方案相比,搭載 NVIDIA H100 GPU 的 A3 系列等 GPU 加速執行個體,在訓練大型模型時的能源效率顯著提升。雖然 GPU 加速執行個體的額定耗電量較高,但完成工作所需的時間短得多。 |
升級至最新機型
使用最新機器類型可能有助於提升永續發展性。機器類型更新時,通常會設計成更節省能源,並提供更高的每瓦效能。使用最新機器類型的 VM 可能會以較低的耗電量完成相同的工作量。
CPU、GPU 和 TPU 通常會受益於晶片架構的技術進展,例如:
- 專用核心:處理器進步通常包括專用核心或常見工作負載的指令。舉例來說,CPU 可能有專為向量運算或整合式 AI 加速器設計的專用核心。將這些工作從主要 CPU 卸載後,工作完成效率會更高,耗電量也會減少。
- 提升電源管理效率:晶片架構的進步通常包括更精密的電源管理功能,例如根據工作負載動態調整電壓和頻率。這些電源管理功能可讓晶片以最高效率運作,並在閒置時進入低功耗狀態,進而減少能源消耗。
晶片架構的技術改良項目可直接帶來以下永續性和成本效益:
- 每瓦特效能更高:這是永續發展的重要指標。 舉例來說,在能源消耗量相同的情況下,C4 VM 的成本效益比 C3 VM 高出 40%。C4A 處理器的能源效率比同類型的 x86 處理器高出 60%。這些效能功能可讓您更快完成工作,或以較少的執行個體處理相同負載。
- 降低總能源消耗量:改良後的處理器可縮短特定工作使用運算資源的時間,進而減少整體能源使用量和碳足跡。對於短期、耗用大量運算資源的工作負載 (例如批次工作和機器學習模型訓練),碳排放影響尤其高。
- 資源使用率最佳化:最新機型通常更適合現代軟體,且與雲端平台的進階功能更相容。這類機器類型通常可提高資源使用率,減少過度佈建的需求,並確保每瓦電力都能有效運用。
部署容器化應用程式
您可以將 GKE 和 Cloud Run 等以容器為基礎的全代管服務,納入永續雲端運算策略。這些服務可協助您最佳化資源用量,並自動管理資源。
善用 Cloud Run 的「擴充至零」功能
Cloud Run 提供代管無伺服器環境,當服務沒有傳入流量或工作完成時,系統會自動將執行個體數縮減至零。自動調度資源功能可減少閒置基礎架構的能源消耗。只有在主動處理要求時,資源才會啟動。這項策略非常適合間歇性或以事件為核心的工作負載。對於 AI 工作負載,您可以使用Cloud Run 的 GPU,這樣一來,您只須在 GPU 實際使用時付費。
使用 GKE 自動執行資源最佳化
GKE 是容器自動化調度管理平台,可確保應用程式只使用所需的資源。為協助您自動化資源最佳化作業,GKE 提供下列技術:
- 裝箱: GKE Autopilot 會在可用節點上智慧地裝箱多個容器。裝箱演算法可盡量提高每個節點的利用率,並減少閒置或未充分利用的節點數量,進而降低能源消耗。
- 水平 Pod 自動調度資源 (HPA): HPA 會根據預先定義的指標 (例如 CPU 使用率或自訂應用程式專屬指標),自動調整容器副本 (Pod) 的數量。舉例來說,如果應用程式的流量突然暴增,GKE 會新增 Pod 來滿足需求。流量減少時,GKE 會減少 Pod 數量。這項動態擴充功能可避免資源過度佈建,因此您不必為不必要的運算容量付費或啟動電源。
- 垂直自動調度 Pod 資源 (VPA): 您可以設定 GKE,自動調整個別容器的 CPU 和記憶體分配量及限制。這項設定可確保系統不會為容器分配超出需求的資源,有助於避免資源過度佈建。
- GKE 多維度 Pod 自動調度資源: 對於複雜的工作負載,您可以同時設定 HPA 和 VPA,以最佳化 Pod 數量和每個 Pod 的大小。這項技術可確保在達到所需效能的同時,盡可能減少能源消耗。
- 拓撲感知排程 (TAS): TAS 會根據資料中心基礎架構的實體結構放置 Pod,藉此提升 GKE 中 AI 和機器學習工作負載的網路效率。TAS 會策略性地將工作負載共置,以盡量減少網路躍點。這種共置方式有助於減少通訊延遲和能源消耗。透過節點和專用硬體的實體對齊最佳化,TAS 可加速完成工作,並盡可能提高大規模 AI 和機器學習工作負載的能源效率。
設定碳感知排程
Google 持續將工作負載轉移至可提供最潔淨電力的地點和時段。我們也會將舊設備改造成其他用途,或回收舊設備。您可以運用這項碳感知排程策略,確保容器化工作負載使用乾淨能源。
如要實作碳感知排程,您需要即時取得某個區域資料中心的能源結構資訊。您可以從 GitHub 的「Carbon free energy for regions」 Google Cloud 存放區,或從 BigQuery 公開資料集,以機器可讀取的格式取得這項資訊。計算 Google 年度碳資料集時,所用的每小時電網組合和碳強度資料,是來自 Electricity Maps。
如要實作碳感知排程,建議採用下列技術:
- 地理位置轉移:排定工作負載在再生能源比例較高的區域執行。這種做法可讓你使用更潔淨的電網。
- 時間轉移:對於批次處理等非關鍵的彈性工作負載,請設定在離峰時段或再生能源最充足時執行工作負載。這種做法稱為「時間轉移」,可充分利用可用的潔淨能源,進而減少整體碳足跡。
建構節能的災難復原機制
準備災難復原 (DR) 時,通常會在次要區域預先佈建備援資源。不過,閒置或未充分運用的資源可能會造成大量能源浪費。選擇可盡量提高資源使用率、盡量減少碳排放影響,同時不影響復原時間目標 (RTO) 的 DR 策略。
針對冷啟動效率進行最佳化
請使用下列方法,盡量減少或完全消除次要 (DR) 區域中的現用資源:
- 優先採用冷 DR:讓 DR 區域的資源保持關閉或縮減至零的狀態。這種做法有助於消除閒置運算資源的碳足跡。
- 善用無伺服器容錯移轉功能:使用 Cloud Run 等代管無伺服器服務做為 DR 端點。Cloud Run 在閒置時會縮減至零,因此您可以維護 DR 拓撲,在流量改向 DR 區域前,不會消耗任何能源。
- 使用基礎架構即程式碼 (IaC) 自動執行復原作業:不必讓 DR 網站的資源持續運作 (暖機),只要在需要時使用 Terraform 等 IaC 工具快速佈建環境即可。
在備援和使用率之間取得平衡
資源重複是造成能源浪費的主要原因。如要減少冗餘,請採取下列做法:
- 優先採用雙主動模式,而非主動/被動模式:在主動/被動設定中,被動網站的資源會閒置,導致能源浪費。雙主動架構會確保兩個區域的所有佈建資源都能主動處理流量,這種做法有助於盡可能提高基礎架構的能源效率。
- 適當調整備援機制:只有在需要複製資料和服務,才能符合高可用性或災害復原需求時,才跨區域複製資料和服務。每增加一個副本,持久性儲存空間和網路輸出就會增加能源成本。
開發節能軟體
Google Cloud Well-Architected Framework 的永續發展支柱包含這項原則,提供相關建議,協助您編寫可減少能源消耗和伺服器負載的軟體。
原則總覽
遵循最佳做法建構雲端應用程式,可盡量減少雲端基礎架構資源 (AI、運算、儲存空間和網路) 的耗電量。此外,您也能協助減少資料中心的水資源需求,以及使用者裝置存取應用程式時消耗的能源。
如要建構節能軟體,您必須在整個軟體生命週期中納入永續發展考量,包括設計、開發、部署、維護和封存。如需使用 AI 建構軟體的詳細指南,盡量減少雲端工作負載對環境的影響,請參閱 Google Cloud 電子書「以永續方式建構軟體」。
建議
本節的建議會依下列重點領域分類:
- 減少運算工作: 盡量使用精簡的程式碼,避免多餘的邏輯,以及不必要的運算或功能膨脹。
- 使用高效率的演算法和資料結構: 選擇可減少 CPU 負載並盡量降低記憶體用量的演算法,以節省時間和記憶體。
- 最佳化運算和資料作業: 開發時,請以有效運用所有可用資源為目標,包括 CPU、記憶體、磁碟 I/O 和網路。舉例來說,以事件驅動邏輯取代忙碌迴圈時,即可避免不必要的輪詢。
- 實作前端最佳化: 如要減少使用者裝置的耗電量,請使用縮小、壓縮和延遲載入圖片和資產等策略。
盡量減少運算工作
如要編寫節能軟體,您必須盡量減少應用程式執行的運算工作總量。每項不必要的指令、多餘的迴圈和額外功能都會耗用能源、時間和資源。請參考下列建議,建構執行最少運算的軟體。
編寫精簡的程式碼
如要編寫最少的必要程式碼,達成所需結果,請使用下列方法:
- 消除多餘的邏輯和功能膨脹:編寫只執行必要功能的程式碼。避免使用會增加運算負荷和複雜度,但無法為使用者提供可衡量的價值的功能。
- 重構:為長期提升能源效率,請定期稽核應用程式,找出未使用的功能。請視情況採取行動,移除或重構這類功能。
- 避免不必要的作業:在需要結果之前,請勿計算值或執行動作。使用延遲評估等技術,延遲運算,直到應用程式中的相依元件需要輸出內容為止。
- 優先考量程式碼的可讀性和可重複使用性:撰寫可讀性高且可重複使用的程式碼。這個方法可減少重複作業,並遵循不要重複 (DRY) 原則,有助於減少軟體開發和維護作業的碳排放量。
使用後端快取
後端快取可確保應用程式不會重複執行相同工作。高快取命中率可讓每個請求的能源消耗量幾乎呈線性減少。如要實作後端快取,請使用下列技術:
- 快取常用資料:將常用資料儲存在臨時的高效能儲存位置。舉例來說,使用 Memorystore 等記憶體快取服務。 應用程式從快取擷取資料時,資料庫查詢和磁碟 I/O 作業的數量會減少。因此,後端資料庫和伺服器的負載會減少。
- 快取 API 回應:為避免多餘且耗費資源的網路呼叫,請快取頻繁 API 要求的結果。
- 優先使用記憶體內快取:為避免磁碟 I/O 作業緩慢和複雜的資料庫查詢,請將資料儲存在高速記憶體 (RAM) 中。
- 選取適當的快取寫入策略:
- 直寫策略可確保資料同步寫入快取和永久儲存空間。這項策略可提高快取命中率,因此持續性儲存空間收到的耗電讀取要求較少。
- 回寫 (延後寫入) 策略可提升寫入量大的應用程式效能。系統會先將資料寫入快取,稍後再以非同步方式更新資料庫。這項策略可減少較慢資料庫的即時寫入負載。
- 使用智慧型逐出政策:維持快取精簡且有效率。如要移除過時或低實用性的資料,並盡量提供空間給經常要求的資料,請使用存留時間 (TTL)、最近最少使用 (LRU) 和最少使用 (LFU) 等政策。
使用高效率的演算法和資料結構
您選擇的演算法和資料結構會決定軟體的原始運算複雜度。選取適當的演算法和資料結構,即可盡量減少完成工作所需的 CPU 週期和記憶體作業。減少 CPU 週期和記憶體作業可降低耗電量。
選擇演算法,達到最佳時間複雜度
優先使用能在最短時間內達到所需結果的演算法。這個方法有助於縮短資源使用時間。如要選取可充分運用資源的演算法,請使用下列方法:
- 著重於降低複雜度:如要評估複雜度,請考量演算法的理論複雜度,而非僅著重於執行階段指標。舉例來說,相較於泡排序,合併排序可大幅減少大型資料集的運算負載和能源消耗。
- 避免重複作業:使用所選程式設計語言或架構中內建的已最佳化函式。這些函式通常是以 C 或 C++ 等低階且更節省能源的語言實作,因此與自訂程式碼函式相比,更適合用於基礎硬體。
選取有效率的資料結構
您選擇的資料結構會決定資料的擷取、插入或處理速度。這項速度會影響 CPU 和記憶體用量。如要選取有效率的資料結構,請使用下列方法:
- 最佳化搜尋和擷取作業:對於常見作業 (例如檢查項目是否存在或擷取特定值),請優先使用經過最佳化調整的資料結構,以提高速度。舉例來說,雜湊對應或雜湊集可實現近乎恆定的時間查閱,相較於線性搜尋陣列,這種做法更節能。
- 盡量減少記憶體用量:有效率的資料結構有助於減少應用程式的整體記憶體用量。減少記憶體存取和管理作業,進而降低耗電量。此外,記憶體用量較低可讓程序更有效率地執行,因此您可延後升級資源。
- 使用專用結構:使用專為特定問題建構的資料結構。舉例來說,使用 Trie 資料結構可快速搜尋字串前置字元,而需要有效存取最高或最低值時,則可使用優先佇列。
最佳化運算和資料作業
開發軟體時,請著重於在整個技術堆疊中,有效率地使用適當比例的資源。將 CPU、記憶體、磁碟和網路視為有限的共用資源。瞭解有效運用資源可大幅降低成本和能源消耗。
最佳化 CPU 使用率和閒置時間
如要盡量減少 CPU 處於耗電的活動狀態,但未執行有意義工作的情況,請採取下列方法:
- 優先採用事件導向邏輯,而非輪詢:以事件導向邏輯取代耗用大量資源的忙碌迴圈或持續檢查 (輪詢)。事件導向架構可確保應用程式元件只會在相關事件觸發時運作。這種方法可啟用隨選處理功能,因此不需要耗用大量資源的輪詢作業。
- 避免頻率持續過高:編寫程式碼時,請勿強制 CPU 持續以最高頻率運作。為盡量減少能源消耗,閒置系統應能進入低耗電狀態或睡眠模式。
- 使用非同步處理:如要避免執行緒在閒置等待期間遭到鎖定,請使用非同步處理。這種做法可釋放資源,進而提高整體資源利用率。
有效管理記憶體和磁碟 I/O
記憶體和磁碟使用效率不彰會導致不必要的處理作業,並增加耗電量。如要有效管理記憶體和 I/O,請使用下列技巧:
- 嚴格的記憶體管理:主動釋出未使用的記憶體資源。避免在記憶體中保留大型物件的時間過長。這種做法可避免效能瓶頸,並減少記憶體存取所消耗的電力。
- 最佳化磁碟 I/O:減少應用程式與永久儲存空間資源的讀寫互動頻率。舉例來說,您可以使用中介記憶體緩衝區儲存資料。以固定間隔或緩衝區達到特定大小時,將資料寫入永久儲存空間。
- 批次作業:將頻繁的小型磁碟作業整合成較少的大型批次作業。相較於許多個別的小型交易,批次作業消耗的能源較少。
- 使用壓縮功能:套用適當的資料壓縮技術,減少寫入或讀取磁碟的資料量。舉例來說,如要壓縮儲存在 Cloud Storage 中的資料,可以使用解壓縮轉碼。
盡量減少網路流量
資料傳輸作業會消耗大量網路資源。 如要最佳化網路通訊,請使用下列技巧:
- 盡量縮小酬載大小:設計 API 和應用程式時,請確保只傳輸要求所需的資料。如果只需要幾個欄位,請避免擷取或傳回大型 JSON 或 XML 結構。確保傳回的資料結構簡潔明瞭。
- 減少往返次數:使用更智慧的通訊協定,減少完成使用者動作所需的網路往返次數。舉例來說,請優先使用 HTTP/3 而非 HTTP/1.1、選擇 GraphQL 而非 REST、使用二進位通訊協定,以及合併 API 呼叫。減少網路呼叫量可降低伺服器和使用者裝置的能源消耗。
實作前端最佳化
前端最佳化可將使用者必須下載及處理的資料量降至最低,有助於減輕使用者裝置資源的負擔。
盡量減少程式碼和資產
當使用者需要下載及處理較小且更有效率的結構化資源時,裝置耗用的電量就會減少。如要盡量減少下載量和使用者裝置的處理負載,請使用下列技巧:
- 縮減和壓縮:針對 JavaScript、CSS 和 HTML 檔案,請使用適當的縮減工具移除空白和註解等不必要的字元。請確保圖片等檔案經過壓縮及最佳化。您可以使用 CI/CD 管道,自動縮減及壓縮網頁資產。
- 延遲載入:只在實際需要時載入圖片、影片和非重要素材資源,例如這些元素捲動到網頁的可視區域時。這個方法可減少初始資料傳輸量,並降低使用者裝置的處理負載。
- 縮小 JavaScript 套件:使用新式模組套件工具和樹狀結構修剪等技術,從 JavaScript 套件中移除未使用的程式碼。這種做法可縮小檔案,加快載入速度,並減少伺服器資源用量。
- 瀏覽器快取:使用 HTTP 快取標頭,指示使用者的瀏覽器在本地儲存靜態資產。瀏覽器快取可避免重複下載,並減少後續造訪時不必要的網路流量。
優先考量輕量級使用者體驗 (UX)
使用者介面設計可能會對前端內容的算繪運算複雜度造成重大影響。如要建構提供輕量型使用者體驗的前端介面,請使用下列技術:
- 有效率的算繪:避免耗用大量資源,頻繁操控文件物件模型 (DOM)。編寫程式碼,盡量減少轉譯複雜度,並避免不必要的重新轉譯。
- 輕量設計模式:盡可能使用靜態網站或漸進式網頁應用程式 (PWA)。這類網站和應用程式載入速度較快,需要的伺服器資源也較少。
- 無障礙和效能:回應式網站載入速度快,通常也更具永續性,且更易於存取。最佳化且簡潔的設計可減少內容顯示時消耗的資源。如果網站效能和速度都經過最佳化,有助於提高收益。根據 Deloitte 和 Google 合作進行的「毫秒之差,百萬之別」研究,網站速度加快 0.1 秒 (100 毫秒),零售業網站的轉換率可提高 8.4%,平均訂單價值則可提高 9.2%。
最佳化資料和儲存空間,提升永續性
Google Cloud Well-Architected Framework 的永續發展支柱包含這項原則,提供相關建議,協助您在 Google Cloud中充分運用儲存資源,提高能源效率並減少碳足跡。
原則總覽
儲存的資料並非被動資源。資料生命週期中的每個階段都會消耗能源並產生碳排放量。每儲存 1 GB 的資料,就需要持續供電、冷卻及管理的實體基礎架構。如要打造永續的雲端架構,請將資料視為寶貴但環境成本高昂的資產,並優先採用主動式資料治理。
您在資料保留、品質和位置方面的決策,有助於大幅降低雲端成本和能源消耗。盡量減少儲存的資料量、妥善規劃資料儲存位置和方式,並實作自動刪除和封存策略。減少資料雜亂,不僅能提升系統效能,還能從根本上減少資料的長期環境足跡。
建議
如要盡量減少資料生命週期和儲存資源對環境的影響,請參考下列各節的建議。
優先處理高價值資料
未使用的重複或過時儲存資料會持續消耗能源,為基礎架構供電。如要減少儲存空間相關的碳足跡,請使用下列技巧。
找出並消除重複內容
制定政策,防止資料集在多個 Google Cloud 專案或服務中不必要地重複。使用 BigQuery 資料集或 Cloud Storage 值區等中央資料存放區做為單一可靠來源,並授予這些存放區適當的存取權。
移除影子資料和暗資料
暗資料是指公用程式或擁有者不明的資料。影子資料是指未經授權的資料副本。使用 Dataplex Universal Catalog 等資料探索和編目解決方案,掃描儲存系統並找出暗資料和影子資料。定期稽核這些發現,並視需要實施程序,封存或刪除暗資料和影子資料。
盡量減少 AI 工作負載的資料量
只儲存模型訓練和服務所需的特徵和處理過的資料。盡可能使用資料取樣、匯總和合成資料生成等技術,在不依賴大量原始資料集的情況下,提升模型效能。
整合資料品質檢查
在資料擷取時,使用 Dataproc、Dataflow 或 Dataplex Universal Catalog 等服務,實作自動資料驗證和資料清理管道。低品質資料會浪費儲存空間。此外,如果之後將資料用於分析或 AI 訓練,也會造成不必要的能源消耗。
檢查資料的價值密度
定期檢查大量資料集,例如記錄和 IoT 串流。判斷是否可匯總、彙整或減少取樣任何資料,以維持所需的資訊密度並減少實際儲存空間。
審慎評估備份需求
評估是否需要備份可輕鬆重新產生的資料。這類資料包括 ETL 中間結果、暫時性快取,以及衍生自穩定永久來源的訓練資料。只保留獨一無二或重建成本高昂的資料備份。
最佳化儲存空間生命週期管理
自動執行儲存空間生命週期管理,在資料實用性降低時,視情況將資料移至節能儲存空間級別或封存。請使用下列技巧。
選取適當的 Cloud Storage 類別
使用物件生命週期管理功能,根據存取頻率,自動將 Cloud Storage 中的資料轉移至低碳儲存空間級別。
- 只有目前使用的資料集 (例如目前的正式版模型) 才適合使用 Standard 儲存空間。
- 將舊版 AI 訓練資料集或存取頻率較低的備份資料等資料,轉移至 Nearline 或 Coldline 儲存空間。
- 如要長期保留資料,請使用 Archive 儲存空間,這項服務經過最佳化調整,可大規模提升能源效率。
實施嚴格的資料生命週期政策
為非必要資料 (例如記錄檔、暫時模型構件和過時的中間結果) 定義明確的自動存留時間 (TTL) 政策。您可以使用生命週期規則,在指定時間後自動刪除這類資料。
強制執行資源標記
強制所有 Cloud Storage 值區、BigQuery 資料集和永久磁碟使用一致的資源標記和標籤。建立標記,指出資料擁有者、資料用途和保留期限。使用「組織政策服務」限制條件,確保資源套用必要標記 (例如保留期限)。標記可讓您自動執行生命週期管理、建立精細的 FinOps 報表,以及產生碳排放量報表。
調整運算儲存空間規模並取消佈建
定期稽核連結至 Compute Engine 執行個體的永久磁碟,確保磁碟未過度佈建。只有在備份時需要快照,才使用快照。刪除舊的未使用快照。如果是資料庫,請使用資料保留政策來縮減基礎永久磁碟的大小。
最佳化儲存空間格式
如果儲存空間用於處理分析工作負載,建議使用 Parquet 或最佳化 Avro 等壓縮的欄位式格式,而非 JSON 或 CSV 等以資料列為基礎的格式。直欄式儲存空間可大幅減少實體磁碟空間需求,並提升讀取效率。這項最佳化作業有助於減少相關聯的運算和 I/O 作業能源消耗。
最佳化區域性和資料移動
資料的實際位置和移動情形會影響網路資源的耗用量,以及儲存所需的能源。使用下列技術,盡量減少資料區域性限制。
選取低碳儲存區域
視法規遵循需求而定,請將資料儲存在無碳能源 (CFE) 使用比例較高或電網碳排放強度較低的 Google Cloud 區域 。使用資源位置組織政策限制,禁止在高碳排放量區域建立儲存空間值區。如要瞭解 Google Cloud 區域的無碳能源和碳密度資料,請參閱「區域無碳能源 Google Cloud 」一文。
盡量減少複製作業
僅複製各區域的資料,以符合強制性災難復原 (DR) 或高可用性 (HA) 要求。跨區域和多區域複製作業會大幅增加資料的能源成本和碳足跡。
最佳化資料處理位置
如要減少網路資料移轉的能源消耗,請在與資料來源相同的區域中,部署 AI 訓練和 BigQuery 處理等運算密集型工作負載。
為合作夥伴和客戶最佳化資料移動
如要跨雲端服務、位置和供應商轉移大量資料,請鼓勵合作夥伴和客戶使用 Storage 移轉服務或資料共用 API。避免大量傾印資料。對於公開資料集,請使用「要求者付費」bucket,將資料移轉和處理費用以及環境影響轉移給使用者。
持續評估及提升永續發展成效
Google Cloud Well-Architected Framework 的永續發展支柱包含這項原則,可提供相關建議,協助您評估及持續改善 Google Cloud中工作負載的永續性。
原則總覽
如要確保雲端工作負載維持永續性,您需要準確且透明的指標。可驗證的指標可協助您將永續發展目標轉化為行動。您在雲端建立的每項資源都有相關聯的碳足跡。如要建構及維護永續的雲端架構,您必須將碳資料的評估結果整合到營運意見回饋迴路中。
本節的建議提供架構,協助您使用碳足跡量化碳排放量、找出碳排放熱點、實作目標工作負載最佳化,以及驗證最佳化工作的成果。這個架構可協助您有效調整成本最佳化目標,以符合可驗證的碳排放量減少目標。
碳足跡報告方法
Carbon Footprint 提供透明、可稽核且符合全球標準的雲端相關排放量報告。這份報告遵循國際標準,主要是溫室氣體 (GHG) 盤查議定書的碳排放報告與會計標準。碳足跡報告採用以位置為準和以市場為準的計算方法。以位置為準的會計方式是根據當地電網的排放係數。按照市場計算的會計方式會將 Google 購買的無碳能源 (CFE) 納入考量。這兩種方法可協助您瞭解工作負載在 Google Cloud中對實體電網的影響,以及碳排放量效益。
如要進一步瞭解碳足跡報告的編製方式,包括使用的資料來源、範圍 3 納入項目和客戶分配模型,請參閱「碳足跡報告方法」。
建議
如要使用碳排放量評估功能持續改善,請參考下列各節的建議。這些建議會以成熟度階段的形式呈現,協助您實作永續設計的雲端作業:
第 1 階段:建立基準
在這個階段,您會設定必要工具,並確保資料可存取且正確整合。
- 授予權限:授予 FinOps、SecOps 和平台工程等團隊權限,讓他們可以在 Google Cloud 控制台中存取碳排放量資訊主頁。在 Identity and Access Management (IAM) 中,為適當的帳單帳戶授予碳排放量檢視者角色 (
roles/billing.carbonViewer)。 - 自動匯出資料:設定自動將碳排放量資料匯出至 BigQuery。匯出的資料可供您進行深入分析、將碳排放量資料與費用和用量資料建立關聯,以及製作自訂報表。
- 定義與碳排放量相關的主要成效指標 (KPI):建立可將碳排放量與業務價值連結的指標。舉例來說,碳強度是每位顧客、每筆交易或每單位收益的二氧化碳當量2 (以公斤為單位)。
階段 2:找出碳排放熱點
分析碳足跡報表中的詳細資料,找出對環境影響最大的領域。請使用下列技術進行這項分析:
- 依範圍設定優先順序:如要快速找出最大的碳排放量來源,請依專案、區域和服務分析資訊主頁中的資料。
- 採用雙重會計法:評估特定區域的碳排放影響時,請同時考量按位置計算的排放量 (當地電網的環境影響) 和按市場計算的排放量 (Google CFE 投資的效益)。
- 與成本建立關聯:在 BigQuery 中將碳排放量資料與帳單資料合併,評估最佳化措施對永續發展和成本的影響。高成本通常與高碳排放量有關。
- 為資料加上註解,評估投入的努力是否值得:在 BigQuery 中為碳資料加上註解,標示特定事件,例如調整資源大小或停用大型服務。註解可讓您將碳排放量和成本的減少歸因於特定最佳化措施,以便評估及展示每項措施的成效。
階段 3:實施目標最佳化
這是執行階段,可實作永續設計的雲端作業。請使用下列策略,針對您認為是成本和碳排放量主要驅動因素的特定資源進行最佳化:
- 停用閒置專案:定期查看與碳足跡資料整合的閒置專案建議工具,如要立即且確實地減少碳排放量和成本,請自動審查並最終移除閒置專案。
- 調整資源規模:使用 Active Assist 最適規模調整建議 (例如 Compute Engine VM 的機器類型建議),根據實際用量調整資源容量。對於需要大量運算資源的工作和 AI 工作負載,請使用最有效率的機器類型和 AI 模型。
- 採用碳感知排程:對於非時間關鍵的批次工作負載,請將區域 CFE 資料整合至排程邏輯。盡可能使用機構政策服務中的資源位置限制,將新資源的建立地點限制在低碳區域。
- 減少資料蔓延:實作資料控管政策,確保不常存取的資料會轉移至適當的冷儲存空間級別 (Nearline、Coldline 或 Archive),或是永久刪除。這項策略有助於降低儲存資源的能源成本。
- 修正應用程式程式碼:修正程式碼層級的效率不彰問題,避免資源用量過高或不必要的運算。
如要瞭解詳情,請參考下列資源:
第 4 階段:將永續發展做法和報告制度化
在這個階段,您會將碳排放量評估納入治理架構。這個做法可確保貴機構具備必要功能和控管機制,持續改善永續發展成效,並提供可驗證的報告。
- 導入 GreenOps 管理機制:建立正式的 GreenOps 職能或工作群組,整合碳足跡資料和 Cloud Billing 資料。這項職責必須為各專案的碳排放量減少目標定義責任、配合永續發展目標調整成本最佳化,並實作報表,追蹤碳效益與支出的關係。
- 使用碳足跡資料製作報表及確保符合法規: 在 BigQuery 中使用經過驗證且可稽核的碳足跡資料,製作正式的環境、社會和公司治理 (ESG) 揭露資訊。這種做法可滿足利害關係人對透明度的要求,並確保符合強制性和自願性法規。
- 投入訓練和宣導:為相關技術和非技術團隊實施強制性永續發展訓練。您的團隊需要瞭解如何存取及解讀碳足跡資料,以及如何在日常工作流程和設計選擇中套用最佳化建議。詳情請參閱「提供以角色為基礎的永續發展訓練」。
- 定義碳排放量要求:在應用程式新部署作業的驗收條件中,將碳排放量指標納入非功能性需求 (NFR)。這項做法可確保架構師和開發人員在應用程式開發生命週期的開端,就優先採用低碳設計選項。
- 自動執行 GreenOps:使用指令碼、範本和基礎架構即程式碼 (IaC) 管道,自動實作 Active Assist 建議。這項做法可確保團隊在整個機構中,一致且快速地套用建議。
推廣永續發展文化
Google Cloud Well-Architected Framework 的永續發展支柱包含這項原則,可提供相關建議,協助您建立企業文化,讓組織各團隊瞭解並熟練永續發展做法。
原則總覽
如要落實永續發展做法,您需要的遠不只是工具和技術。您需要透過教育和問責制推動文化轉變。團隊必須瞭解永續發展相關問題,並具備永續發展實務的實用能力。
- 永續發展意識是情境知識,可讓您瞭解每個架構和營運決策都會對永續發展產生實質影響。團隊必須瞭解,雲端並非虛擬資源的抽象集合,而是由耗用能源並產生碳排放量的實體資源所驅動。
- 熟練掌握永續發展實務:包括解讀碳排放量資料的知識、實作雲端永續發展管理經驗,以及為提升能源效率而重構程式碼的技術能力。
為了讓永續發展措施與機構目標一致,團隊必須瞭解雲端基礎架構和軟體的能源使用量,如何影響機構的碳足跡。妥善規劃的訓練課程有助於確保所有利害關係人 (從開發人員、架構師到財務專業人員和營運工程師) 都能瞭解日常工作的永續發展背景。有了這項共識,團隊就能從被動遵循法規,轉為主動進行最佳化,讓雲端工作負載從設計階段就具備永續性。永續發展成為核心非功能性需求 (NFR),與安全性、成本、效能和可靠性等其他需求相同。
建議
如要提高對永續發展問題的認識,並精通永續發展實務,請參考下列各節的建議。
提供業務背景資訊,並與組織目標保持一致
永續發展不僅是技術實踐,還需要文化轉變,讓個人行動與機構的環保使命一致。如果團隊瞭解永續發展計畫背後的原因,就更有可能將這些計畫視為核心原則,而非選用任務。
掌握全貌
協助團隊瞭解個別架構選擇 (例如選取低碳排放量區域或最佳化資料管道) 如何有助於達成機構的整體永續發展承諾。明確說明這些選擇對當地社群和產業的影響。將抽象的碳指標轉化為具體指標,以評估企業社會責任 (CSR) 目標的達成進度。
舉例來說,以下訊息可讓團隊瞭解將工作負載遷移至低碳排放量區域,並使用省電型機器類型後,獲得正面成果和高層肯定。訊息會提及二氧化碳當量,協助團隊瞭解碳減量措施的影響。
「將資料分析引擎遷移至 us-central1
低 CO2 地區,並將叢集升級至以 C4A Axion 為基礎的執行個體後,我們的碳排放量情況出現了根本性的變化。這項轉移措施使資料分析引擎的碳排放強度降低 75%,相當於本季減少 12 公噸的二氧化碳當量。這項遷移作業對我們的業務目標造成重大影響,因此我們在第四季的董事會電子報中也提及此事。」
傳達財務和永續發展目標
透明度是確保永續發展措施與目標一致的關鍵。請盡可能在整個機構中廣泛分享永續發展目標和進展。在年度財務報表中強調永續發展進展。這類溝通可確保技術團隊將自己的工作視為機構對外承諾和財務健全的重要環節。
建立命運共同體思維
向團隊說明雲端永續發展的協作性質。Google 負責雲端服務的永續發展,包括基礎架構和資料中心的效率。您 (客戶) 必須負責確保雲端資源和工作負載的永續性。將這項合作視為命運共同體,有助於強化共識,也就是貴機構和 Google 攜手合作,共同達成最佳環保成效。
提供依角色分類的永續發展訓練
為確保永續發展是實用技能而非理論概念,請根據特定職位量身打造永續發展訓練。資料科學家可用的永續發展工具和技術,與 FinOps 分析師可用的工具和技術大不相同,如下表所示:
| 角色 | 訓練重點 |
|---|---|
| 數據資料學家和機器學習工程師 | 運算碳排放強度:說明在舊版系統上執行 AI 訓練工作,與使用專用 AI 加速器之間的差異。重點說明參數較少的模型如何以顯著較低的能源消耗,產生所需的準確度。 |
| 開發人員 | 程式碼效率和資源消耗:說明高延遲程式碼或效率不彰的迴圈如何直接導致 CPU 執行時間延長,以及能源消耗增加。強調輕量型容器的重要性,以及為減少軟體對環境的影響,必須盡可能提升應用程式效能。 |
| 架構師 | 設計時就考慮永續性:著重於區域選取和工作負載放置位置。說明選擇再生能源比例高的低二氧化碳排放量區域 (例如 northamerica-northeast1) 後,在您編寫任何程式碼之前,整個應用程式堆疊的碳排放量設定檔會如何發生根本變化。 |
| 平台工程師和營運工程師 | 提高使用率:強調閒置資源和過度佈建造成的環境成本。說明自動調度和適當大小的案例,確保雲端資源得到有效運用。說明如何建立及追蹤與永續發展相關的指標 (例如使用率),以及如何將運算時間等指標轉換為碳排放量的等值指標。 |
| FinOps | 碳的單位經濟效益:著重於財務支出與環境影響之間的關係。說明機構如何透過 GreenOps 做法追蹤每筆交易的碳排放量,將永續發展納入主要成效指標 (KPI),與成本和用量等傳統 KPI 同等重要。 |
| 產品經理 | 永續發展功能:說明如何將減碳目標整合至產品藍圖。說明簡化使用者歷程如何有助於減少雲端資源和使用者裝置的耗電量。 |
| 企業領袖 | 策略一致性和報告:著重於雲端永續發展如何影響環境、社會和公司治理 (ESG) 分數和公眾聲譽。說明永續發展選擇如何協助降低法規風險,並履行對社群和產業的承諾。 |
提倡永續發展並表揚成功案例
如要維持長期進展,您需要超越內部技術修正,開始影響合作夥伴和產業。
協助經理提倡永續發展
提供管理員所需的資料和權限,讓他們能像其他業務指標 (例如上市速度和成本) 一樣,優先考量環境影響。有了這些資料,管理人員就會將永續發展視為品質和效率標準,而非會拖慢生產速度的附加功能。他們積極提倡使用新的雲端供應商功能,例如特定區域的更精細碳排放資料,以及更新、更環保的處理器。
符合業界標準和架構
為確保永續發展措施可信且可評估,請根據公認的全球和區域標準調整內部做法。詳情請參閱「根據產業指南調整永續發展做法」。
鼓勵永續發展計畫
為確保永續發展成為工程文化中不可或缺的一環,團隊必須瞭解優先考量永續發展的價值。從高層級目標轉向具體可評估的 KPI,以獎勵成效和效率的提升。
定義碳排放量 KPI 和非功能性需求
將永續發展視為核心技術需求。定義碳排放量 KPI (例如每百萬次要求產生的二氧化碳當量,或每次 AI 訓練執行的碳強度) 後,您就能瞭解對永續發展的影響,並採取行動。舉例來說,將永續發展納入每個新專案的非功能性需求。換句話說,系統不僅要達到特定的延遲或可用性目標,也必須維持在定義的碳排放量預算內。
評估投入的努力與回報
協助團隊找出高影響力、低費力的永續發展成果,例如將批次作業移至其他區域,而不是進行複雜的程式碼重構練習,因為後者可能只會帶來極少的效益。提供投入心力後的回報率 (ROE)。如果團隊選擇更有效率的處理器系列,就必須確切瞭解相較於遷移至新處理器所需的時間和精力,他們避免了多少碳排放量。
表揚並慶祝減碳成就
基礎架構的永續發展影響通常隱藏在背景中。為持續推動永續發展,請向整個機構展示成功案例。舉例來說,您可以在監控資訊主頁中使用註解,標示團隊部署特定永續發展最佳化措施的時間。團隊可透過這項功能在資訊主頁中指出資料,並爭取成功認可。
根據產業指南調整永續發展做法
Google Cloud Well-Architected Framework 的永續發展支柱包含這項原則,概述您應遵循的產業指南和架構,以配合永續發展工作。
原則總覽
為確保永續發展計畫是以全球公認的衡量、報告和驗證方法為基礎,建議您按照下列產業規範調整計畫:
如果您的永續發展計畫符合這些外部共用指南,就能獲得投資人、監管機構和其他外部利害關係人要求的公信力和可稽核性。您也協助工程團隊落實問責制、在員工訓練中加入永續發展概念,並成功將雲端作業納入企業的環境、社會和治理 (ESG) 報告承諾。
W3C 網頁永續發展指南
W3C 網路永續發展指南 (WSG) 是由 W3C 工作組開發的新興最佳做法架構,旨在解決數位產品和服務對環境的影響。這些指南涵蓋數位解決方案的整個生命週期,包括業務和產品策略、使用者體驗 (UX) 設計、網頁開發、主機代管、基礎架構和系統。WSG 的核心目標是協助開發人員和架構師建構更節能的網站和網頁應用程式,減少網路流量、用戶端處理作業和伺服器端資源耗用量。這些指南是重要的參考依據,可協助您根據雲端層級的架構決策,調整應用程式層級的永續發展目標。
Green Software Foundation
綠色軟體基金會 (GSF) 致力於建立永續軟體產業生態系統。該團隊的使命是推動軟體開發,以盡可能減少碳足跡。GSF 制定了軟體碳強度 (SCI) 規格,為測量任何軟體的碳排放率提供通用標準。與 GSF 保持一致,有助於開發人員直接將應用程式的效率與雲端環境的碳排放影響連結。
溫室氣體通訊協定
「溫室氣體盤查議定書」是一套廣為使用的標準,用於測量、管理及公開報告溫室氣體排放量。這項通訊協定是由世界資源研究所 (WRI) 和世界企業永續發展協會 (WBCSD) 合作開發。溫室氣體通訊協定為企業氣候會計提供基本架構。碳足跡報告會提供與雲端用量相關的排放範圍資料。詳情請參閱「碳足跡報告方法」。
遵守溫室氣體議定書可確保永續發展計畫具有公信力,外部單位也能稽核您的碳排放資料。此外,您也能避免漂綠的觀感,並滿足投資人、監管機構和外部利害關係人的盡職調查要求。經過驗證和稽核的資料可協助貴機構證明責任,並建立公眾對永續發展承諾的信任。