Optimiser les données et le stockage pour la durabilité

Last reviewed 2026-01-28 UTC

Ce principe du pilier "Durabilité" du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à optimiser l'efficacité énergétique et l'empreinte carbone de vos ressources de stockage dans Google Cloud.

Présentation des principes

Les données stockées ne sont pas une ressource passive. De l'énergie est consommée et des émissions de carbone sont générées tout au long du cycle de vie des données. Chaque gigaoctet de données stockées nécessite une infrastructure physique qui est constamment alimentée, refroidie et gérée. Pour obtenir une architecture cloud durable, traitez les données comme un atout précieux, mais coûteux pour l'environnement, et privilégiez une gouvernance des données proactive.

Vos décisions concernant la conservation, la qualité et l'emplacement des données peuvent vous aider à réduire considérablement les coûts et la consommation d'énergie dans le cloud. Réduisez au minimum les données que vous stockez, optimisez l'emplacement et la manière dont vous les stockez, et mettez en œuvre des stratégies de suppression et d'archivage automatiques. En réduisant l'encombrement des données, vous améliorez les performances du système et réduisez fondamentalement l'empreinte environnementale à long terme de vos données.

Recommandations

Pour optimiser le cycle de vie de vos données et vos ressources de stockage en termes de durabilité, tenez compte des recommandations des sections suivantes.

Prioriser les données à forte valeur

Les données stockées qui ne sont pas utilisées, sont en double ou sont obsolètes continuent de consommer de l'énergie pour alimenter l'infrastructure sous-jacente. Pour réduire l'empreinte carbone liée au stockage, utilisez les techniques suivantes.

Identifier et éliminer les doublons

Établissez des règles pour éviter la réplication inutile d'ensembles de données dans plusieurs projets ou services Google Cloud . Utilisez des dépôts de données centraux tels que les ensembles de données BigQuery ou les buckets Cloud Storage comme sources uniques de référence, et accordez l'accès approprié à ces dépôts.

Supprimer les données fantômes et les données obscures

Les données obscures sont des données dont l'utilité ou le propriétaire sont inconnus. Les données fantômes désignent les copies non autorisées de données. Analysez vos systèmes de stockage et trouvez les données obscures et les données fantômes à l'aide d'une solution de découverte et de catalogage des données comme Dataplex Universal Catalog. Auditez régulièrement ces résultats et mettez en œuvre un processus d'archivage ou de suppression des données sombres et cachées, le cas échéant.

Minimiser le volume de données pour les charges de travail d'IA

Ne stockez que les caractéristiques et les données traitées nécessaires à l'entraînement et à la diffusion du modèle. Dans la mesure du possible, utilisez des techniques telles que l'échantillonnage et l'agrégation de données, ainsi que la génération de données synthétiques, pour obtenir des performances de modèle sans avoir recours à des ensembles de données brutes massifs.

Intégrer des contrôles de la qualité des données

Implémentez des pipelines de validation et de nettoyage automatiques des données à l'aide de services tels que Dataproc, Dataflow ou Dataplex Universal Catalog au moment de l'ingestion des données. Les données de mauvaise qualité gaspillent de l'espace de stockage. Cela entraîne également une consommation d'énergie inutile lorsque les données sont utilisées ultérieurement pour l'analyse ou l'entraînement de l'IA.

Examiner la densité de valeur des données

Examinez régulièrement les ensembles de données à volume élevé, comme les journaux et les flux IoT. Déterminez si des données peuvent être résumées, agrégées ou sous-échantillonnées pour maintenir la densité d'informations requise et réduire le volume de stockage physique.

Évaluez de manière critique la nécessité de sauvegardes

Évaluez la nécessité de sauvegarder les données que vous pouvez régénérer avec un minimum d'effort. Par exemple, les résultats ETL intermédiaires, les caches éphémères et les données d'entraînement dérivées d'une source stable et permanente. Ne conservez les sauvegardes que pour les données uniques ou coûteuses à recréer.

Optimiser la gestion du cycle de vie du stockage

Automatisez le cycle de vie du stockage afin que, lorsque l'utilité des données diminue, elles soient déplacées vers une classe de stockage écoénergétique ou supprimées, selon le cas. Utilisez les techniques suivantes.

Sélectionner une classe Cloud Storage appropriée

Automatisez la transition des données dans Cloud Storage vers des classes de stockage à faible émission de carbone en fonction de la fréquence d'accès à l'aide de la gestion du cycle de vie des objets.

  • N'utilisez le stockage standard que pour les ensembles de données activement utilisés, tels que les modèles de production actuels.
  • Transférez les données telles que les anciens ensembles de données d'entraînement de l'IA ou les sauvegardes moins fréquemment consultées vers le stockage Nearline ou Coldline.
  • Pour une conservation à long terme, utilisez le stockage Archive, qui est optimisé pour l'efficacité énergétique à grande échelle.

Implémenter des règles de cycle de vie des données agressives

Définissez des règles de valeur TTL (Time To Live) claires et automatisées pour les données non essentielles, telles que les fichiers journaux, les artefacts de modèles temporaires et les résultats intermédiaires obsolètes. Utilisez des règles de cycle de vie pour supprimer automatiquement ces données après une période définie.

Rendre obligatoire l'ajout de tags aux ressources

Exigez l'utilisation de tags et d'étiquettes de ressources cohérents pour tous vos buckets Cloud Storage, ensembles de données BigQuery et disques persistants. Créez des tags qui indiquent le propriétaire des données, leur objectif et la période de conservation. Utilisez les contraintes du service de règles d'administration pour vous assurer que les tags requis, tels que la période de conservation, sont appliqués aux ressources. Les tags vous permettent d'automatiser la gestion du cycle de vie, de créer des rapports FinOps précis et de générer des rapports sur les émissions de carbone.

Dimensionner correctement et supprimer le stockage de calcul

Vérifiez régulièrement les disques persistants associés aux instances Compute Engine et assurez-vous qu'ils ne sont pas surprovisionnés. N'utilisez les instantanés que lorsqu'ils sont nécessaires pour la sauvegarde. Supprimez les anciens instantanés inutilisés. Pour les bases de données, utilisez des règles de conservation des données afin de réduire la taille des disques persistants sous-jacents.

Optimiser le format de stockage

Pour le stockage qui sert les charges de travail analytiques, préférez les formats colonnaires compressés comme Parquet ou Avro optimisé aux formats basés sur des lignes comme JSON ou CSV. Le stockage en colonnes réduit considérablement les besoins en espace disque physique et améliore l'efficacité de la lecture. Cette optimisation permet de réduire la consommation d'énergie pour les opérations de calcul et d'E/S associées.

Optimiser la régionalisation et le transfert de données

L'emplacement physique et le déplacement de vos données ont une incidence sur la consommation des ressources réseau et sur l'énergie requise pour le stockage. Optimisez la régionalité des données en utilisant les techniques suivantes.

Sélectionner des régions de stockage à faible émission de carbone

En fonction de vos exigences de conformité, stockez les données dans des régions Google Cloud qui utilisent un pourcentage plus élevé d'énergie bas carbone (CFE) ou qui ont une intensité carbone du réseau plus faible. Limitez la création de buckets de stockage dans les régions à forte émission de carbone à l'aide de la contrainte de règle d'administration Emplacements des ressources. Pour en savoir plus sur les données CFE et d'intensité carbone pour les régions Google Cloud , consultez Énergie décarbonée pour les régions Google Cloud .

Minimiser la réplication

Ne répliquez les données dans plusieurs régions que pour répondre aux exigences obligatoires en matière de reprise après sinistre (DR) ou de haute disponibilité (HA). Les opérations de réplication interrégionales et multirégionales augmentent considérablement le coût énergétique et l'empreinte carbone de vos données.

Optimiser les emplacements de traitement des données

Pour réduire la consommation d'énergie liée au transfert de données réseau, déployez les charges de travail gourmandes en calcul, comme l'entraînement de l'IA et le traitement BigQuery, dans la même région que la source de données.

Optimiser le transfert de données pour vos partenaires et vos clients

Pour déplacer de grands volumes de données entre des services, des emplacements et des fournisseurs cloud, encouragez vos partenaires et clients à utiliser le service de transfert de stockage ou les API de partage de données. Évitez les déversements massifs de données. Pour les ensembles de données publics, utilisez les buckets Requester Pays afin de transférer les coûts de transfert et de traitement des données, ainsi que l'impact environnemental, aux utilisateurs finaux.