最佳化資料和儲存空間,提升永續性

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework 的永續發展支柱提供相關原則,建議您如何充分運用 Google Cloud的儲存資源,提高能源效率並減少碳足跡。

原則總覽

儲存的資料並非被動資源。在資料的整個生命週期中,都會消耗能源並產生碳排放量。每儲存 1 GB 的資料,都需要持續供電、冷卻及管理的實體基礎架構。如要打造永續的雲端架構,請將資料視為寶貴但環境成本高昂的資產,並優先採用主動式資料治理。

您在資料保留、品質和位置方面的決策,有助於大幅降低雲端成本和能源消耗。盡量減少儲存的資料量、妥善規劃資料儲存位置和方式,並實作自動刪除和封存策略。減少資料雜亂,可提升系統效能,並從根本上減少資料的長期環境足跡。

建議

如要最佳化資料生命週期和儲存資源,以提升永續性,請考慮採用下列各節的建議。

優先處理高價值資料

未使用的重複或過時資料仍會耗用能源,為基礎架構供電。如要減少儲存空間相關的碳足跡,請使用下列技巧。

找出並消除重複內容

制定政策,防止資料集在多個 Google Cloud 專案或服務中不必要地重複。使用中央資料存放區 (例如 BigQuery 資料集Cloud Storage 值區) 做為單一可靠來源,並授予這些存放區適當的存取權。

移除影子資料和暗資料

暗資料是指公用事業或擁有者不明的資料。影子資料是指未經授權的資料副本。使用 Knowledge Catalog 等資料探索和編目解決方案,掃描儲存系統並找出暗資料和影子資料。定期稽核這些發現,並視需要實施程序,封存或刪除暗資料和影子資料。

盡量減少 AI 工作負載的資料量

只儲存模型訓練和服務所需的特徵和處理過的資料。盡可能使用資料取樣、匯總和合成資料生成等技術,在不依賴大量原始資料集的情況下,提升模型效能。

整合資料品質檢查

在資料擷取時,使用 Managed Service for Apache SparkDataflow 或 Knowledge Catalog 等服務,實作自動資料驗證和資料清理管道。低品質資料會浪費儲存空間。此外,如果之後將資料用於分析或 AI 訓練,也會造成不必要的能源消耗。

檢視資料的價值密度

定期檢查大量資料集,例如記錄和 IoT 串流。判斷是否可匯總、彙整或減少取樣任何資料,以維持所需的資訊密度並減少實際儲存空間。

審慎評估備份需求

評估是否需要備份可輕鬆重新產生的資料。這類資料包括中繼 ETL 結果、暫時性快取,以及衍生自穩定永久來源的訓練資料。只保留獨一無二或難以重新建立的資料備份。

最佳化儲存空間生命週期管理

自動化儲存空間生命週期,在資料實用性降低時,視情況將資料移至節能儲存空間級別或停用。請使用下列技巧。

選取適當的 Cloud Storage 儲存空間級別

使用物件生命週期管理功能,根據存取頻率,自動將 Cloud Storage 中的資料轉移至低碳儲存空間級別。

  • 只有目前使用的資料集 (例如目前的正式版模型) 才適合使用 Standard Storage。
  • 將舊的 AI 訓練資料集或存取頻率較低的備份資料等資料,轉移至 Nearline 或 Coldline Storage。
  • 如要長期保留資料,請使用 Archive Storage,這項服務經過最佳化調整,可大規模提升能源效率。

實施嚴格的資料生命週期政策

為非必要資料 (例如記錄檔、暫時模型構件和過時的中間結果) 定義明確的自動存留時間 (TTL) 政策。使用生命週期規則,在指定時間後自動刪除這類資料。

強制執行資源標記

強制所有 Cloud Storage 值區、BigQuery 資料集和永久磁碟使用一致的資源標記和標籤。建立標記,指出資料擁有者、資料用途和保留期限。使用「機構政策服務」限制條件,確保資源套用必要標記 (例如保留期限)。標記可協助您自動化生命週期管理、建立精細的 FinOps 報表,以及產生碳排放量報表。

調整運算儲存空間規模並取消佈建

定期稽核連結至 Compute Engine 執行個體的永久磁碟,確保磁碟未過度佈建。只有在備份時需要快照,才使用快照。刪除舊的未使用快照。如果是資料庫,請使用資料保留政策縮減底層永久磁碟的大小。

最佳化儲存空間格式

如要儲存用於分析工作負載的資料,請優先使用 Parquet 或最佳化 Avro 等壓縮的資料欄格式,而非 JSON 或 CSV 等以資料列為基礎的格式。直欄式儲存空間可大幅減少實體磁碟空間需求,並提升讀取效率。這項最佳化措施有助於減少相關聯的運算和 I/O 作業能源消耗。

最佳化區域性和資料移動

資料的實際位置和移動情形會影響網路資源的耗用量,以及儲存資料所需的能源。使用下列技術,盡量減少資料區域性限制。

選取低碳儲存區域

視法規遵循需求而定,請將資料儲存在無碳能源 (CFE) 使用比例較高或電網碳排放強度較低的 Google Cloud 區域。使用資源位置組織政策限制,禁止在高碳排放量區域建立儲存空間值區。如要瞭解 Google Cloud 區域的無碳能源和碳密度資料,請參閱「區域無碳能源 Google Cloud 」一文。

盡量減少複製作業

僅複製各區域的資料,以符合強制性災難復原 (DR) 或高可用性 (HA) 要求。跨區域和多區域複製作業會大幅增加資料的能源成本和碳足跡。

最佳化資料處理位置

如要減少網路資料移轉的能源消耗,請在與資料來源相同的區域中,部署 AI 訓練和 BigQuery 處理等運算密集型工作負載。

為合作夥伴和客戶最佳化資料移動作業

如要跨雲端服務、位置和供應商轉移大量資料,請鼓勵合作夥伴和客戶使用 Storage 移轉服務或資料共用 API。避免大量傾印資料。對於公開資料集,請使用「要求者付費」值區,將資料移轉和處理費用以及環境影響轉移給使用者。