优化数据和存储以实现可持续发展

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework 可持续性核心中的这一原则提供了相关建议,可帮助您优化 Google Cloud中存储资源的能效和碳足迹。

原则概览

存储的数据不是被动资源。在数据的整个生命周期内,都会消耗能源并产生碳排放。每存储 1 GB 的数据都需要持续供电、冷却和管理的物理基础设施。为了实现可持续的云架构,请将数据视为有价值但环境成本高昂的资产,并优先考虑主动数据治理。

您在数据保留、质量和位置方面的决策有助于大幅降低云费用和能耗。尽量减少存储的数据量,优化数据存储位置和方式,并实施自动删除和归档策略。减少数据杂乱可提高系统性能,并从根本上减少数据的长期环境足迹。

建议

如需优化数据生命周期和存储资源以实现可持续性,请考虑以下各部分中的建议。

优先考虑高价值数据

未使用的重复数据或过时数据会继续消耗能源来为底层基础设施供电。如需减少存储相关的碳足迹,请使用以下方法。

识别并消除重复内容

制定政策,以防止在多个 Google Cloud 项目或服务中不必要地复制数据集。使用 BigQuery 数据集Cloud Storage 存储分区等中央数据代码库作为单一可信来源,并授予对这些代码库的适当访问权限。

移除影子数据和暗数据

暗数据是指用途或所有者未知的数据。影子数据是指未经授权的数据副本。使用 Dataplex Universal Catalog 等数据发现和编目解决方案扫描存储系统,查找暗数据和影子数据。 定期审核这些发现,并根据需要实施暗数据和影子数据的归档或删除流程。

尽可能减少 AI 工作负载的数据量

仅存储模型训练和提供服务所需的特征和处理后的数据。在可能的情况下,使用数据抽样、汇总和合成数据生成等技术来提高模型性能,而无需依赖庞大的原始数据集。

集成数据质量检查

在数据注入时,使用 DataprocDataflow 或 Dataplex Universal Catalog 等服务实现自动数据验证和数据清理流水线。低质数据会导致存储空间浪费。此外,如果后续将这些数据用于分析或 AI 训练,还会导致不必要的能耗。

查看数据的价值密度

定期检查日志和 IoT 数据流等大容量数据集。确定是否可以对任何数据进行总结、汇总或降采样,以保持所需的信息密度并减少物理存储空间。

严格评估备份需求

评估是否需要备份只需少量精力即可重新生成的数据。 此类数据的示例包括中间 ETL 结果、临时缓存,以及源自稳定永久来源的训练数据。仅保留难以重新创建或重新创建成本高昂的唯一数据的备份。

优化存储生命周期管理

自动管理存储生命周期,以便在数据效用下降时,将数据移至能效高的存储类别或将其废弃(视情况而定)。请使用以下方法。

选择合适的 Cloud Storage 类别

使用对象生命周期管理功能,根据访问频率自动将 Cloud Storage 中的数据转换为低碳存储类别。

  • 仅将 Standard 存储空间用于当前正在使用的活跃数据集,例如当前生产模型。
  • 将旧版 AI 训练数据集或不常访问的备份等数据迁移到 Nearline 或 Coldline 存储空间。
  • 如需长期保留数据,请使用 Archive Storage,该存储空间已针对大规模节能进行优化。

实施严格的数据生命周期政策

为非必要数据(例如日志文件、临时模型制品和过时的中间结果)定义清晰的自动化存留时间 (TTL) 政策。使用生命周期规则在指定期限后自动删除此类数据。

强制执行资源标记

强制要求为所有 Cloud Storage 存储分区、BigQuery 数据集和永久性磁盘使用一致的资源标记和标签。创建用于指明数据所有者、数据用途和保留期限的标记。使用组织政策服务限制条件,确保将必需的标记(例如保留期限)应用于资源。借助标记,您可以自动执行生命周期管理、创建精细的 FinOps 报告,以及生成碳排放报告。

合理调整计算存储空间并取消预配

定期审核挂接到 Compute Engine 实例的永久性磁盘,并确保磁盘未过度预配。仅在需要使用快照进行备份时才使用快照。删除旧的、未使用的快照。对于数据库,请使用数据保留政策来减小底层永久性磁盘的大小。

优化存储格式

对于用于处理分析工作负载的存储,建议选择压缩的列式格式(如 Parquet 或优化的 Avro),而不是基于行的格式(如 JSON 或 CSV)。列式存储可显著减少物理磁盘空间需求并提高读取效率。这种优化有助于减少相关计算和 I/O 操作的能耗。

优化区域化和数据迁移

数据的实际位置和移动会影响网络资源的消耗以及存储所需的能源。使用以下技术优化数据区域性。

选择低碳存储区域

根据您的合规性要求,将数据存储在无碳能源 (CFE) 使用百分比较高或电网碳强度较低的 Google Cloud 区域。使用资源位置组织政策限制条件来限制在高碳排放区域创建存储分区。如需了解 Google Cloud 区域的 CFE 和碳强度数据,请参阅 Google Cloud 区域的无碳能源数据

尽量减少复制

仅在需要满足强制性灾难恢复 (DR) 或高可用性 (HA) 要求时,才跨区域复制数据。跨区域和多区域复制操作会显著增加数据的能耗和碳足迹。

优化数据处理位置

为了减少网络数据传输的能耗,请在与数据源相同的区域中部署计算密集型工作负载,例如 AI 训练和 BigQuery 处理。

优化合作伙伴和客户的数据迁移

如需在云服务、位置和提供商之间迁移大量数据,请鼓励合作伙伴和客户使用 Storage Transfer Service 或数据共享 API。避免大规模数据转储。对于公共数据集,请使用请求者付费存储分区,将数据传输和处理费用以及环境影响转移给最终用户。