Dieses Prinzip im Bereich „Nachhaltigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Optimierung der Energieeffizienz und des CO2-Fußabdrucks Ihrer Speicherressourcen in Google Cloud.
Übersicht über die Grundsätze
Gespeicherte Daten sind keine passive Ressource. Während des gesamten Datenlebenszyklus wird Energie verbraucht und es entstehen CO2-Emissionen. Für jedes Gigabyte gespeicherter Daten ist eine physische Infrastruktur erforderlich, die kontinuierlich mit Strom versorgt, gekühlt und verwaltet werden muss. Um eine nachhaltige Cloud-Architektur zu erreichen, sollten Sie Daten als wertvolles, aber umweltbelastendes Asset betrachten und proaktive Data Governance priorisieren.
Ihre Entscheidungen in Bezug auf Datenaufbewahrung, ‑qualität und ‑standort können Ihnen helfen, die Cloud-Kosten und den Energieverbrauch erheblich zu senken. Minimieren Sie die Daten, die Sie speichern, optimieren Sie, wo und wie Sie Daten speichern, und implementieren Sie Strategien für das automatische Löschen und Archivieren. Wenn Sie Datenmüll reduzieren, verbessern Sie die Systemleistung und verringern langfristig die Umweltbelastung durch Ihre Daten.
Empfehlungen
Wenn Sie den Datenlebenszyklus und die Speicherressourcen im Hinblick auf Nachhaltigkeit optimieren möchten, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen.
Hochwertige Daten priorisieren
Gespeicherte Daten, die nicht verwendet werden, dupliziert oder veraltet sind, verbrauchen weiterhin Energie für die zugrunde liegende Infrastruktur. Mit den folgenden Techniken können Sie den CO2-Fußabdruck im Zusammenhang mit dem Speicherplatz reduzieren.
Duplikate identifizieren und entfernen
Legen Sie Richtlinien fest, um die unnötige Replikation von Datasets in mehreren Google Cloud Projekten oder ‑Diensten zu verhindern. Verwenden Sie zentrale Datenrepositories wie BigQuery-Datasets oder Cloud Storage-Buckets als Single Source of Truth und gewähren Sie entsprechenden Zugriff auf diese Repositories.
Schatten- und Dark Data entfernen
Dark Data sind Daten, deren Nutzen oder Eigentümer unbekannt ist. Schattenkopien sind unautorisierte Kopien von Daten. Scannen Sie Ihre Speichersysteme und suchen Sie mit einer Lösung zur Datenermittlung und ‑katalogisierung wie Dataplex Universal Catalog nach Dark Data und Shadow Data. Prüfen Sie diese Ergebnisse regelmäßig und implementieren Sie gegebenenfalls ein Verfahren zum Archivieren oder Löschen von Dark und Shadow Data.
Datenvolumen für KI-Arbeitslasten minimieren
Speichern Sie nur die Features und verarbeiteten Daten, die für das Modelltraining und die Bereitstellung erforderlich sind. Verwenden Sie nach Möglichkeit Techniken wie Data Sampling, Aggregation und Generierung synthetischer Daten, um eine gute Modellleistung zu erzielen, ohne auf riesige Rohdatensätze angewiesen zu sein.
Datenqualitätsprüfungen einbinden
Implementieren Sie automatische Pipelines für die Datenvalidierung und ‑bereinigung mit Diensten wie Dataproc, Dataflow oder Dataplex Universal Catalog bei der Datenaufnahme. Daten von niedriger Qualität führen zu verschwendetem Speicherplatz. Außerdem führt es zu unnötigem Energieverbrauch, wenn die Daten später für Analysen oder KI-Training verwendet werden.
Wertdichte von Daten prüfen
Überprüfen Sie regelmäßig Datasets mit hohem Volumen wie Protokolle und IoT-Streams. Prüfen Sie, ob Daten zusammengefasst, aggregiert oder downsampled werden können, um die erforderliche Informationsdichte beizubehalten und das physische Speichervolumen zu reduzieren.
Bedarf an Sicherungen kritisch bewerten
Prüfen Sie, ob Backups von Daten erforderlich sind, die Sie mit minimalem Aufwand neu generieren können. Beispiele für solche Daten sind Zwischenergebnisse von ETL-Prozessen, kurzlebige Caches und Trainingsdaten, die aus einer stabilen, permanenten Quelle stammen. Sichern Sie nur Daten, die einzigartig sind oder deren Neuerstellung kostspielig ist.
Verwaltung des Speicherlebenszyklus optimieren
Automatisieren Sie den Speicherlebenszyklus, sodass Daten, wenn ihr Nutzen abnimmt, in eine energieeffiziente Speicherklasse verschoben oder entsprechend entfernt werden. Gehen Sie dazu so vor:
Geeignete Cloud Storage-Klasse auswählen
Sie können den Übergang von Daten in Cloud Storage zu Speicherklassen mit geringerem CO2-Ausstoß basierend auf der Zugriffshäufigkeit mithilfe der Verwaltung des Objektlebenszyklus automatisieren.
- Verwenden Sie Standard-Speicher nur für aktiv verwendete Datasets, z. B. aktuelle Produktionsmodelle.
- Verschieben Sie Übergangsdaten wie ältere KI-Trainingsdatensätze oder weniger häufig aufgerufene Sicherungen in Nearline- oder Coldline-Speicher.
- Verwenden Sie für die langfristige Aufbewahrung Archive Storage, das für Energieeffizienz im großen Maßstab optimiert ist.
Aggressive Richtlinien für den Datenlebenszyklus implementieren
Definieren Sie klare, automatisierte Richtlinien zur Gültigkeitsdauer (Time-to-Live, TTL) für nicht essenzielle Daten wie Logdateien, temporäre Modellartefakte und veraltete Zwischenergebnisse. Verwenden Sie Lebenszyklusregeln, um solche Daten nach einem bestimmten Zeitraum automatisch zu löschen.
Ressourcen-Tagging erzwingen
Schreiben Sie die Verwendung einheitlicher Ressourcentags und ‑labels für alle Ihre Cloud Storage-Buckets, BigQuery-Datasets und persistenten Datenträger vor. Erstellen Sie Tags, die den Dateninhaber, den Zweck der Daten und den Aufbewahrungszeitraum angeben. Verwenden Sie Einschränkungen für den Organisationsrichtliniendienst, um sicherzustellen, dass erforderliche Tags wie der Aufbewahrungszeitraum auf Ressourcen angewendet werden. Mit Tags können Sie die Lebenszyklusverwaltung automatisieren, detaillierte FinOps-Berichte erstellen und Berichte zu CO2-Emissionen erstellen.
Computing-Speicher bedarfsgerecht anpassen und bereitstellen
Prüfen Sie regelmäßig nichtflüchtige Speicher, die an Compute Engine-Instanzen angehängt sind, und achten Sie darauf, dass die Speicher nicht überdimensioniert sind. Verwenden Sie Snapshots nur, wenn sie für die Sicherung erforderlich sind. Löschen Sie alte, nicht verwendete Snapshots. Verwenden Sie für Datenbanken Richtlinien zur Datenaufbewahrung, um die Größe der zugrunde liegenden nichtflüchtigen Speicher zu reduzieren.
Speicherformat optimieren
Für Speicher, der für Analysearbeitslasten verwendet wird, sollten Sie komprimierte, spaltenbasierte Formate wie Parquet oder optimiertes Avro gegenüber zeilenbasierten Formaten wie JSON oder CSV bevorzugen. Durch die spaltenweise Speicherung wird der physische Speicherplatzbedarf erheblich reduziert und die Leseleistung verbessert. Diese Optimierung trägt dazu bei, den Energieverbrauch für die zugehörigen Rechen- und E/A-Vorgänge zu senken.
Regionalität und Datenübertragung optimieren
Der physische Standort und die Bewegung Ihrer Daten wirken sich auf den Verbrauch von Netzwerkressourcen und die für die Speicherung erforderliche Energie aus. Mit den folgenden Methoden können Sie die Regionalität von Daten optimieren.
Regionen mit geringen CO2-Emissionen für die Speicherung auswählen
Je nach Ihren Compliance-Anforderungen können Sie Daten in Google Cloud Regionen speichern, in denen ein höherer Anteil an CO2-freier Energie (CFE) verwendet wird oder die eine geringere CO2-Intensität des Stromnetzes aufweisen. Sie können die Erstellung von Storage-Buckets in Regionen mit hohem CO₂-Ausstoß mithilfe der Organisationsrichtlinie für Ressourcenstandorte einschränken. Informationen zu CFE- und Kohlenstoffintensitätsdaten für Google Cloud Regionen finden Sie unter CO2-freie Energie für Google Cloud Regionen.
Replikation minimieren
Daten über Regionen hinweg nur replizieren, um die obligatorischen Anforderungen an die Notfallwiederherstellung (Disaster Recovery, DR) oder Hochverfügbarkeit (High Availability, HA) zu erfüllen. Regionsübergreifende und multiregionale Replikationsvorgänge erhöhen die Energiekosten und den CO₂-Fußabdruck Ihrer Daten erheblich.
Orte der Datenverarbeitung optimieren
Um den Energieverbrauch für die Netzwerkdatenübertragung zu senken, sollten Sie rechenintensive Arbeitslasten wie KI-Training und BigQuery-Verarbeitung in derselben Region wie die Datenquelle bereitstellen.
Datenübertragung für Partner und Kunden optimieren
Wenn Sie große Datenmengen zwischen Cloud-Diensten, Standorten und Anbietern verschieben möchten, empfehlen Sie Ihren Partnern und Kunden, den Storage Transfer Service oder APIs für die gemeinsame Nutzung von Daten zu verwenden. Vermeiden Sie Massenexporte von Daten. Verwenden Sie für öffentliche Datasets Anforderer bezahlt-Buckets, um die Kosten für die Datenübertragung und -verarbeitung sowie die Umweltauswirkungen auf Endnutzer zu verlagern.