Optimiza los datos y el almacenamiento para la sustentabilidad

Last reviewed 2026-01-28 UTC

Este principio del pilar de sostenibilidad del Google Cloud framework de Well-Architected proporciona recomendaciones para ayudarte a optimizar la eficiencia energética y la huella de carbono de tus recursos de almacenamiento en Google Cloud.

Descripción general del principio

Los datos almacenados no son un recurso pasivo. La energía se consume y las emisiones de carbono se producen durante todo el ciclo de vida de los datos. Cada gigabyte de datos almacenados requiere infraestructura física que se alimenta, enfría y administra de forma continua. Para lograr una arquitectura de nube sostenible, trata los datos como un recurso valioso, pero costoso para el medio ambiente, y prioriza la administración de datos proactiva.

Tus decisiones sobre la retención, la calidad y la ubicación de los datos pueden ayudarte a lograr reducciones significativas en los costos de la nube y el consumo de energía. Minimiza los datos que almacenas, optimiza dónde y cómo los almacenas, y aplica estrategias automatizadas de eliminación y archivo. Cuando reduces el desorden de datos, mejoras el rendimiento del sistema y reduces fundamentalmente la huella ambiental a largo plazo de tus datos.

Recomendaciones

Para optimizar el ciclo de vida de los datos y los recursos de almacenamiento en pos de la sustentabilidad, ten en cuenta las recomendaciones de las siguientes secciones.

Prioriza los datos de alto valor

Los datos almacenados que no se usan, están duplicados o son obsoletos siguen consumiendo energía para alimentar la infraestructura subyacente. Para reducir la huella de carbono relacionada con el almacenamiento, usa las siguientes técnicas.

Identifica y elimina la duplicación

Establece políticas para evitar la replicación innecesaria de conjuntos de datos en varios Google Cloud proyectos o servicios. Usa repositorios de datos centrales, como conjuntos de datos de BigQuery o buckets de Cloud Storage, como fuentes únicas de verdad y otorga el acceso adecuado a estos repositorios.

Cómo quitar los datos ocultos y los datos no utilizados

Los datos oscuros son datos cuya utilidad o propietario se desconocen. Datos sombra significa copias no autorizadas de datos. Analiza tus sistemas de almacenamiento y encuentra datos ocultos y datos sombra con una solución de descubrimiento y catalogación de datos como Dataplex Universal Catalog. Audita estos hallazgos con regularidad y, luego, implementa un proceso para archivar o borrar los datos ocultos y los datos sombra según corresponda.

Minimiza el volumen de datos para las cargas de trabajo de IA

Almacena solo los atributos y los datos procesados que se requieren para el entrenamiento y la entrega del modelo. Cuando sea posible, usa técnicas como el muestreo de datos, la agregación y la generación de datos sintéticos para lograr el rendimiento del modelo sin depender de conjuntos de datos sin procesar masivos.

Integra verificaciones de la calidad de los datos

Implementa canalizaciones automáticas de validación y limpieza de datos con servicios como Dataproc, Dataflow o Dataplex Universal Catalog en el punto de transferencia de datos. Los datos de baja calidad generan un desperdicio de espacio de almacenamiento. También genera un consumo de energía innecesario cuando los datos se usan más adelante para el entrenamiento de la IA o el análisis.

Revisa la densidad de valor de los datos

Revisa periódicamente los conjuntos de datos de gran volumen, como los registros y los flujos de IoT. Determina si se pueden resumir, agregar o reducir los datos para mantener la densidad de información requerida y reducir el volumen de almacenamiento físico.

Evalúa de forma crítica la necesidad de copias de seguridad

Evalúa la necesidad de copias de seguridad de los datos que puedes regenerar con un esfuerzo mínimo. Algunos ejemplos de estos datos incluyen los resultados intermedios de ETL, los cachés efímeros y los datos de entrenamiento que se derivan de una fuente estable y permanente. Conserva copias de seguridad solo de los datos que son únicos o costosos de recrear.

Optimiza la administración del ciclo de vida del almacenamiento

Automatiza el ciclo de vida del almacenamiento para que, cuando disminuya la utilidad de los datos, estos se muevan a una clase de almacenamiento eficiente en el uso de energía o se retiren, según corresponda. Usa las siguientes técnicas.

Selecciona una clase de Cloud Storage adecuada

Automatiza la transición de datos en Cloud Storage a clases de almacenamiento con menos emisiones de carbono según la frecuencia de acceso con la Administración del ciclo de vida de los objetos.

  • Usa Standard Storage solo para los conjuntos de datos que se usan de forma activa, como los modelos de producción actuales.
  • Transiciona los datos, como los conjuntos de datos de entrenamiento de IA más antiguos o las copias de seguridad a las que se accede con menos frecuencia, a Nearline o Coldline Storage.
  • Para la retención a largo plazo, usa Archive Storage, que está optimizado para la eficiencia energética a gran escala.

Implementa políticas de ciclo de vida de los datos agresivas

Define políticas de tiempo de actividad (TTL) claras y automatizadas para los datos no esenciales, como los archivos de registro, los artefactos de modelos temporales y los resultados intermedios desactualizados. Usa reglas de ciclo de vida para borrar automáticamente esos datos después de un período definido.

Exige el etiquetado de recursos

Exige el uso de etiquetas y rótulos de recursos coherentes para todos tus buckets de Cloud Storage, conjuntos de datos de BigQuery y discos persistentes. Crea etiquetas que indiquen el propietario de los datos, el propósito de los datos y el período de retención. Usa las restricciones del Servicio de políticas de la organización para garantizar que las etiquetas requeridas, como el período de retención, se apliquen a los recursos. Las etiquetas te permiten automatizar la administración del ciclo de vida, crear informes detallados de FinOps y generar informes de emisiones de carbono.

Redimensiona y desaprovisiona el almacenamiento de procesamiento

Audita periódicamente los discos persistentes conectados a las instancias de Compute Engine y asegúrate de que no se hayan aprovisionado en exceso. Usa instantáneas solo cuando sean necesarias para la copia de seguridad. Borra las instantáneas antiguas que no se usen. En el caso de las bases de datos, usa políticas de retención de datos para reducir el tamaño de los discos persistentes subyacentes.

Optimiza el formato de almacenamiento

Para el almacenamiento que admite cargas de trabajo de análisis, prefiere los formatos comprimidos basados en columnas, como Parquet o Avro optimizado, en lugar de los formatos basados en filas, como JSON o CSV. El almacenamiento columnar reduce significativamente los requisitos de espacio físico en el disco y mejora la eficiencia de lectura. Esta optimización ayuda a reducir el consumo de energía de las operaciones de E/S y procesamiento asociadas.

Optimiza la regionalización y el movimiento de datos

La ubicación física y el movimiento de tus datos afectan el consumo de recursos de red y la energía necesaria para el almacenamiento. Optimiza la regionalidad de los datos con las siguientes técnicas.

Selecciona regiones de almacenamiento con bajas emisiones de carbono

Según tus requisitos de cumplimiento, almacena los datos en Google Cloud regiones que usen un mayor porcentaje de energía sin emisiones de carbono (CFE) o que tengan una menor intensidad de carbono en la red. Restringe la creación de buckets de almacenamiento en regiones con altas emisiones de carbono con la restricción de la política de la organización ubicaciones de recursos. Si deseas obtener información sobre los datos de CFE y de intensidad de carbono para las regiones de Google Cloud , consulta Energía sin emisiones de carbono para las regiones de Google Cloud .

Minimiza la replicación

Replica los datos entre regiones solo para cumplir con los requisitos obligatorios de recuperación ante desastres (DR) o alta disponibilidad (HA). Las operaciones de replicación multirregión y entre regiones aumentan significativamente el costo energético y la huella de carbono de tus datos.

Optimiza las ubicaciones de procesamiento de datos

Para reducir el consumo de energía en la transferencia de datos de red, implementa cargas de trabajo con uso intensivo de procesamiento, como el entrenamiento de IA y el procesamiento de BigQuery, en la misma región que la fuente de datos.

Optimiza el movimiento de datos para tus socios y clientes

Para transferir grandes volúmenes de datos entre servicios, ubicaciones y proveedores de la nube, recomienda a tus socios y clientes que usen el Servicio de transferencia de almacenamiento o las APIs de uso compartido de datos. Evita las volcados masivos de datos. En el caso de los conjuntos de datos públicos, usa buckets de Requester Pays para transferir los costos de procesamiento y transferencia de datos, y el impacto ambiental a los usuarios finales.