Google Cloud Well-Architected Framework 的永續發展支柱包含這項原則,提供相關建議,協助您在 Google Cloud中充分運用儲存資源,提高能源效率並減少碳足跡。
原則總覽
儲存的資料並非被動資源。資料生命週期中的每個階段都會消耗能源並產生碳排放量。每儲存 1 GB 的資料,就需要持續供電、冷卻及管理的實體基礎架構。如要打造永續的雲端架構,請將資料視為寶貴但環境成本高昂的資產,並優先採用主動式資料治理。
您在資料保留、品質和位置方面的決策,有助於大幅降低雲端成本和能源消耗。盡量減少儲存的資料量、妥善規劃資料儲存位置和方式,並實作自動刪除和封存策略。減少資料雜亂,不僅能提升系統效能,還能從根本上減少資料的長期環境足跡。
建議
如要盡量減少資料生命週期和儲存資源對環境的影響,請參考下列各節的建議。
優先處理高價值資料
未使用的重複或過時儲存資料會持續消耗能源,為基礎架構供電。如要減少儲存空間相關的碳足跡,請使用下列技巧。
找出並消除重複內容
制定政策,防止資料集在多個 Google Cloud 專案或服務中不必要地重複。使用 BigQuery 資料集或 Cloud Storage 值區等中央資料存放區做為單一可靠來源,並授予這些存放區適當的存取權。
移除影子資料和暗資料
暗資料是指公用程式或擁有者不明的資料。影子資料是指未經授權的資料副本。使用 Dataplex Universal Catalog 等資料探索和編目解決方案,掃描儲存系統並找出暗資料和影子資料。定期稽核這些發現,並視需要實施程序,封存或刪除暗資料和影子資料。
盡量減少 AI 工作負載的資料量
只儲存模型訓練和服務所需的特徵和處理過的資料。盡可能使用資料取樣、匯總和合成資料生成等技術,在不依賴大量原始資料集的情況下,提升模型效能。
整合資料品質檢查
在資料擷取時,使用 Dataproc、Dataflow 或 Dataplex Universal Catalog 等服務,實作自動資料驗證和資料清理管道。低品質資料會浪費儲存空間。此外,如果之後將資料用於分析或 AI 訓練,也會造成不必要的能源消耗。
檢查資料的價值密度
定期檢查大量資料集,例如記錄和 IoT 串流。判斷是否可匯總、彙整或減少取樣任何資料,以維持所需的資訊密度並減少實際儲存空間。
審慎評估備份需求
評估是否需要備份可輕鬆重新產生的資料。這類資料包括 ETL 中間結果、暫時性快取,以及衍生自穩定永久來源的訓練資料。只保留獨一無二或重建成本高昂的資料備份。
最佳化儲存空間生命週期管理
自動執行儲存空間生命週期管理,在資料實用性降低時,視情況將資料移至節能儲存空間級別或封存。請使用下列技巧。
選取適當的 Cloud Storage 類別
使用物件生命週期管理功能,根據存取頻率,自動將 Cloud Storage 中的資料轉移至低碳儲存空間級別。
- 只有目前使用的資料集 (例如目前的正式版模型) 才適合使用 Standard 儲存空間。
- 將舊版 AI 訓練資料集或存取頻率較低的備份資料等資料,轉移至 Nearline 或 Coldline 儲存空間。
- 如要長期保留資料,請使用 Archive 儲存空間,這項服務經過最佳化調整,可大規模提升能源效率。
實施嚴格的資料生命週期政策
為非必要資料 (例如記錄檔、暫時模型構件和過時的中間結果) 定義明確的自動存留時間 (TTL) 政策。您可以使用生命週期規則,在指定時間後自動刪除這類資料。
強制執行資源標記
強制所有 Cloud Storage 值區、BigQuery 資料集和永久磁碟使用一致的資源標記和標籤。建立標記,指出資料擁有者、資料用途和保留期限。使用「組織政策服務」限制條件,確保資源套用必要標記 (例如保留期限)。標記可讓您自動執行生命週期管理、建立精細的 FinOps 報表,以及產生碳排放量報表。
調整運算儲存空間規模並取消佈建
定期稽核連結至 Compute Engine 執行個體的永久磁碟,確保磁碟未過度佈建。只有在備份時需要快照,才使用快照。刪除舊的未使用快照。如果是資料庫,請使用資料保留政策來縮減基礎永久磁碟的大小。
最佳化儲存空間格式
如果儲存空間用於處理分析工作負載,建議使用 Parquet 或最佳化 Avro 等壓縮的欄位式格式,而非 JSON 或 CSV 等以資料列為基礎的格式。直欄式儲存空間可大幅減少實體磁碟空間需求,並提升讀取效率。這項最佳化作業有助於減少相關聯的運算和 I/O 作業能源消耗。
最佳化區域性和資料移動
資料的實際位置和移動情形會影響網路資源的耗用量,以及儲存所需的能源。使用下列技術,盡量減少資料區域性限制。
選取低碳儲存區域
視法規遵循需求而定,請將資料儲存在無碳能源 (CFE) 使用比例較高或電網碳排放強度較低的 Google Cloud 區域 。使用資源位置組織政策限制,禁止在高碳排放量區域建立儲存空間值區。如要瞭解 Google Cloud 區域的無碳能源和碳密度資料,請參閱「區域無碳能源 Google Cloud 」一文。
盡量減少複製作業
僅複製各區域的資料,以符合強制性災難復原 (DR) 或高可用性 (HA) 要求。跨區域和多區域複製作業會大幅增加資料的能源成本和碳足跡。
最佳化資料處理位置
如要減少網路資料移轉的能源消耗,請在與資料來源相同的區域中,部署 AI 訓練和 BigQuery 處理等運算密集型工作負載。
為合作夥伴和客戶最佳化資料移動
如要跨雲端服務、位置和供應商轉移大量資料,請鼓勵合作夥伴和客戶使用 Storage 移轉服務或資料共用 API。避免大量傾印資料。對於公開資料集,請使用「要求者付費」bucket,將資料移轉和處理費用以及環境影響轉移給使用者。