Este principio del pilar de sustentabilidad del Google Cloud Framework de Well-Architected proporciona recomendaciones para ayudarte a optimizar la eficiencia energética y la huella de carbono de tus recursos de almacenamiento en Google Cloud.
Descripción general del principio
Los datos almacenados no son un recurso pasivo. Se consume energía y se producen emisiones de carbono durante todo el ciclo de vida de los datos. Cada gigabyte de datos almacenados requiere una infraestructura física que se enciende, enfría y administra de forma continua. Para lograr una arquitectura de nube sustentable, trata los datos como un recurso valioso, pero costoso para el medioambiente, y prioriza la administración de datos proactiva.
Tus decisiones sobre la retención, la calidad y la ubicación de los datos pueden ayudarte a lograr reducciones significativas en los costos de la nube y el consumo de energía. Minimiza los datos que almacenas, optimiza dónde y cómo los almacenas, y aplica estrategias automatizadas de eliminación y archivo. Cuando reduces el desorden de datos, mejoras el rendimiento del sistema y disminuyes fundamentalmente la huella ambiental a largo plazo de tus datos.
Recomendaciones
Para optimizar el ciclo de vida de los datos y los recursos de almacenamiento en términos de sustentabilidad, considera las recomendaciones de las siguientes secciones.
Prioriza los datos de alto valor
Los datos almacenados que no se usan, están duplicados o son obsoletos siguen consumiendo energía para alimentar la infraestructura subyacente. Para reducir la huella de carbono relacionada con el almacenamiento, usa las siguientes técnicas.
Identifica y elimina la duplicación
Establece políticas para evitar la replicación innecesaria de conjuntos de datos en varios múltiples Google Cloud proyectos o servicios. Usa repositorios de datos centrales como conjuntos de datos de BigQuery o buckets de Cloud Storage como fuentes únicas de información y otorga el acceso adecuado a estos repositorios.
Quita los datos ocultos y los datos no identificados
Los datos no identificados son datos cuya utilidad o propietario se desconoce. Los datos ocultos son copias no autorizadas de datos. Analiza tus sistemas de almacenamiento y busca datos no identificados y ocultos con una solución de descubrimiento y catalogación de datos, como Knowledge Catalog. Audita estos resultados con regularidad y aplica un proceso para archivar o borrar los datos no identificados y ocultos según corresponda.
Minimiza el volumen de datos para las cargas de trabajo de IA
Almacena solo las funciones y los datos procesados que se requieren para el entrenamiento y la entrega de modelos. Cuando sea posible, usa técnicas como el muestreo de datos, la agregación y la generación de datos sintéticos para lograr el rendimiento del modelo sin depender de conjuntos de datos sin procesar masivos.
Integra verificaciones de calidad de los datos
Implementa canalizaciones automáticas de validación y limpieza de datos con servicios como Managed Service for Apache Spark, Dataflow, o Knowledge Catalog en el punto de transferencia de datos. Los datos de baja calidad provocan el desperdicio de espacio de almacenamiento. También generan un consumo de energía innecesario cuando los datos se usan más adelante para estadísticas o entrenamiento de IA.
Revisa la densidad de valor de los datos
Revisa periódicamente los conjuntos de datos de gran volumen, como los registros y las transmisiones de IoT. Determina si se pueden resumir, agregar o submuestrear los datos para mantener la densidad de información requerida y reducir el volumen de almacenamiento físico.
Evalúa de forma crítica la necesidad de copias de seguridad
Evalúa la necesidad de copias de seguridad de los datos que puedes regenerar con un esfuerzo mínimo. Entre los ejemplos de estos datos, se incluyen los resultados intermedios de ETL, las memorias caché efímeras y los datos de entrenamiento que se derivan de una fuente estable y permanente. Conserva las copias de seguridad solo para los datos que son únicos o costosos de volver a crear.
Optimiza la administración del ciclo de vida del almacenamiento
Automatiza el ciclo de vida del almacenamiento para que, cuando disminuya la utilidad de los datos, estos se muevan a una clase de almacenamiento eficiente en términos de energía o se retiren, según corresponda. Usa las siguientes técnicas.
Selecciona una clase de Cloud Storage adecuada
- Usa Standard Storage solo para los conjuntos de datos que se usan de forma activa, como los modelos de producción actuales.
- Transfiere datos, como conjuntos de datos de entrenamiento de IA más antiguos o copias de seguridad a las que se accede con menos frecuencia, a Nearline Storage o Coldline Storage.
- Para la retención a largo plazo, usa Archive Storage, que está optimizado para la eficiencia energética a gran escala.
Implementa políticas agresivas de ciclo de vida de los datos
Define políticas claras y automatizadas de tiempo de actividad (TTL) para los datos no esenciales, como los archivos de registro, los artefactos de modelos temporales y los resultados intermedios desactualizados. Usa reglas de ciclo de vida para borrar automáticamente esos datos después de un período definido.
Exige el etiquetado de recursos
Exige el uso de etiquetas y rótulos de recursos coherentes para todos tus buckets de Cloud Storage, conjuntos de datos de BigQuery y discos persistentes. Crea etiquetas que indiquen el propietario de los datos, el propósito de los datos y el período de retención. Usa las restricciones del Servicio de políticas de la organización para asegurarte de que las etiquetas requeridas, como el período de retención, se apliquen a los recursos. Las etiquetas te permiten automatizar la administración del ciclo de vida, crear informes detallados de FinOps y generar informes de emisiones de carbono.
Redimensiona y anula el aprovisionamiento del almacenamiento de procesamiento
Audita periódicamente los discos persistentes que están conectados a instancias de Compute Engine y asegúrate de que no tengan un aprovisionamiento excesivo. Usa instantáneas solo cuando sean necesarias para la copia de seguridad. Borra las instantáneas antiguas y sin usar. Para las bases de datos, usa políticas de retención de datos para reducir el tamaño de los discos persistentes subyacentes.
Optimiza el formato de almacenamiento
Para el almacenamiento que entrega cargas de trabajo analíticas, prefiere los formatos comprimidos y basados en columnas, como Parquet o Avro optimizado, en lugar de los formatos basados en filas, como JSON o CSV. El almacenamiento basado en columnas reduce significativamente los requisitos de espacio físico en el disco y mejora la eficiencia de lectura. Esta optimización ayuda a reducir el consumo de energía para las operaciones de procesamiento y E/S asociadas.
Optimiza la regionalidad y el movimiento de datos
La ubicación física y el movimiento de tus datos afectan el consumo de recursos de red y la energía necesaria para el almacenamiento. Optimiza la regionalidad de los datos con las siguientes técnicas.
Selecciona regiones de almacenamiento con bajas emisiones de carbono
Según tus requisitos de cumplimiento, almacena datos en Google Cloud regiones que usen un porcentaje más alto de energía sin emisiones de carbono (CFE) o que tengan una menor intensidad de carbono en la red. Restringe la creación de buckets de almacenamiento en regiones con altas emisiones de carbono con la restricción de ubicaciones de recursos de las políticas de la organización. Para obtener información sobre la CFE y los datos de intensidad de carbono para las Google Cloud regiones, consulta Energía sin emisiones de carbono para las Google Cloud regiones.
Minimiza la replicación
Replica los datos entre las regiones solo para cumplir con los requisitos obligatorios de recuperación ante desastres (DR) o alta disponibilidad (HA). Las operaciones de replicación entre regiones y multirregionales aumentan significativamente el costo de energía y la huella de carbono de tus datos.
Optimiza las ubicaciones de procesamiento de datos
Para reducir el consumo de energía para la transferencia de datos de red, implementa cargas de trabajo con uso intensivo de procesamiento, como el entrenamiento de IA y el procesamiento de BigQuery, en la misma región que la fuente de datos.
Optimiza el movimiento de datos para tus socios y clientes
Para mover grandes volúmenes de datos entre servicios, ubicaciones y proveedores de la nube, recomienda a tus socios y clientes que usen el Servicio de transferencia de almacenamiento o las APIs de uso compartido de datos. Evita las descargas masivas de datos. Para los conjuntos de datos públicos, usa Requester Pays buckets para transferir los costos de transferencia y procesamiento de datos, y el impacto ambiental a los usuarios finales.