Dieser Grundsatz in der Säule „Nachhaltigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen zur Optimierung der Energieeffizienz und des CO2- Fußabdrucks Ihrer Speicherressourcen in Google Cloud.
Grundsatzübersicht
Gespeicherte Daten sind keine passive Ressource. Während des gesamten Lebenszyklus von Daten werden Energie verbraucht und CO2-Emissionen verursacht. Jedes Gigabyte gespeicherter Daten erfordert eine physische Infrastruktur, die kontinuierlich mit Strom versorgt, gekühlt und verwaltet wird. Um eine nachhaltige Cloud-Architektur zu erreichen, sollten Sie Daten als wertvolles, aber umweltbelastendes Asset betrachten und proaktive Data Governance priorisieren.
Ihre Entscheidungen in Bezug auf Datenaufbewahrung, -qualität und -standort können zu erheblichen Senkungen der Cloud-Kosten und des Energieverbrauchs beitragen. Minimieren Sie die Menge der gespeicherten Daten, optimieren Sie, wo und wie Sie Daten speichern, und implementieren Sie automatisierte Strategien zum Löschen und Archivieren. Wenn Sie Datenmüll reduzieren, verbessern Sie die Systemleistung und verringern den langfristigen ökologischen Fußabdruck Ihrer Daten grundlegend.
Empfehlungen
Um den Lebenszyklus Ihrer Daten und Ihre Speicherressourcen im Hinblick auf Nachhaltigkeit zu optimieren, sollten Sie die Empfehlungen in den folgenden Abschnitten berücksichtigen.
Hochwertige Daten priorisieren
Ungenaue, doppelte oder veraltete gespeicherte Daten verbrauchen weiterhin Energie, um die zugrunde liegende Infrastruktur zu betreiben. Verwenden Sie die folgenden Techniken, um den CO2-Fußabdruck im Zusammenhang mit der Speicherung zu reduzieren.
Duplikate identifizieren und entfernen
Legen Sie Richtlinien fest, um die unnötige Replikation von Datasets in mehreren Google Cloud Projekten oder Diensten zu verhindern. Verwenden Sie zentrale Daten-Repositories wie BigQuery-Datasets oder Cloud Storage-Buckets als Single Source of Truth und gewähren Sie entsprechenden Zugriff auf diese Repositories.
Schatten- und Dark Data entfernen
Dark Data sind Daten, deren Nutzen oder Eigentümer unbekannt ist. Schatten-Daten sind unbefugte Kopien von Daten. Scannen Sie Ihre Speichersysteme und suchen Sie nach Dark Data und Schatten-Daten, indem Sie eine Lösung zur Datenermittlung und -katalogisierung wie Knowledge Catalogverwenden. Prüfen Sie diese Ergebnisse regelmäßig und implementieren Sie gegebenenfalls einen Prozess zum Archivieren oder Löschen von Dark Data und Schatten-Daten.
Datenvolumen für KI-Arbeitslasten minimieren
Speichern Sie nur die Features und verarbeiteten Daten, die für das Modelltraining und die Bereitstellung erforderlich sind. Verwenden Sie nach Möglichkeit Techniken wie Stichprobenerhebung, Aggregation und die Generierung synthetischer Daten, um die Modellleistung zu erzielen, ohne auf riesige Rohdatensätze angewiesen zu sein.
Datenqualitätsprüfungen einbinden
Implementieren Sie automatische Datenvalidierungs- und Datenbereinigungs-Pipelines mit Diensten wie Managed Service for Apache Spark, Dataflow, oder Knowledge Catalog bei der Datenaufnahme. Daten von geringer Qualität verschwenden Speicherplatz. Außerdem führen sie zu unnötigem Energieverbrauch, wenn die Daten später für Analysen oder KI-Training verwendet werden.
Wertdichte von Daten prüfen
Prüfen Sie regelmäßig Datasets mit hohem Volumen wie Logs und IoT-Streams. Ermitteln Sie, ob Daten zusammengefasst, aggregiert oder heruntergesampelt werden können, um die erforderliche Informationsdichte beizubehalten und das physische Speichervolumen zu reduzieren.
Bedarf an Sicherungen kritisch bewerten
Bewerten Sie den Bedarf an Sicherungen von Daten, die Sie mit minimalem Aufwand neu generieren können. Beispiele für solche Daten sind ETL-Zwischenergebnisse, sitzungsspezifische Caches und Trainingsdaten, die aus einer stabilen, dauerhaften Quelle abgeleitet wurden. Bewahren Sie Sicherungen nur für Daten auf, die einzigartig oder teuer zu erstellen sind.
Lebenszyklusverwaltung für Speicher optimieren
Automatisieren Sie den Lebenszyklus des Speichers, sodass Daten, wenn ihr Nutzen sinkt, in eine energieeffiziente Speicherklasse verschoben oder gegebenenfalls eingestellt werden. Verwenden Sie die folgenden Techniken.
Geeignete Cloud Storage-Klasse auswählen
- Verwenden Sie Standard Storage nur für aktiv genutzte Datasets wie aktuelle Produktionsmodelle.
- Verschieben Sie Daten wie ältere KI-Trainingsdatensätze oder weniger häufig aufgerufene Sicherungen in Nearline Storage oder Coldline Storage.
- Verwenden Sie für die langfristige Aufbewahrung Archive Storage, das für Energieeffizienz im großen Maßstab optimiert ist.
Strenge Richtlinien für den Datenlebenszyklus implementieren
Definieren Sie klare, automatisierte Richtlinien zur Gültigkeitsdauer (Time to Live, TTL) für nicht essenzielle Daten wie Logdateien, temporäre Modellartefakte und veraltete Zwischenergebnisse. Verwenden Sie Lebenszyklusregeln, um solche Daten nach einem bestimmten Zeitraum automatisch zu löschen.
Ressourcen-Tagging vorschreiben
Schreiben Sie die Verwendung einheitlicher Ressourcen-Tags und ‑Labels für alle Ihre Cloud Storage-Buckets, BigQuery-Datasets und nichtflüchtigen Speicher vor. Erstellen Sie Tags, die den Dateneigentümer, den Zweck der Daten und den Aufbewahrungszeitraum angeben. Verwenden Sie Einschränkungen des Organisationsrichtliniendienstes, um sicherzustellen, dass erforderliche Tags wie der Aufbewahrungszeitraum auf Ressourcen angewendet werden. Mit Tags können Sie die Lebenszyklusverwaltung automatisieren, detaillierte FinOps-Berichte erstellen und Berichte zu CO2-Emissionen erstellen.
Computing-Speicher bedarfsgerecht anpassen und bereitstellen
Prüfen Sie regelmäßig nichtflüchtige Speicher, die an Compute Engine-Instanzen angehängt sind, und stellen Sie sicher, dass sie nicht überdimensioniert sind. Verwenden Sie Snapshots nur, wenn sie für die Sicherung erforderlich sind. Löschen Sie alte, nicht verwendete Snapshots. Verwenden Sie für Datenbanken Richtlinien zur Datenaufbewahrung, um die Größe der zugrunde liegenden nichtflüchtigen Speicher zu reduzieren.
Speicherformat optimieren
Für Speicher, der für Analysearbeitslasten verwendet wird, sollten Sie komprimierte, spaltenbasierte Formate wie Parquet oder optimiertes Avro gegenüber zeilenbasierten Formaten wie JSON oder CSV bevorzugen. Spaltenbasierter Speicher reduziert den physischen Speicherplatzbedarf erheblich und verbessert die Leseeffizienz. Diese Optimierung trägt dazu bei, den Energieverbrauch für die zugehörigen Computing- und E/A-Vorgänge zu senken.
Regionalität und Datenverschiebung optimieren
Der physische Standort und die Verschiebung Ihrer Daten wirken sich auf den Verbrauch von Netzwerkressourcen und die für die Speicherung erforderliche Energie aus. Optimieren Sie die Datenregionalität mit den folgenden Techniken.
Speicherregionen mit geringem CO2-Ausstoß auswählen
Speichern Sie Daten je nach Compliance-Anforderungen in Google Cloud Regionen, in denen ein höherer Prozentsatz an CO2-freier Energie verwendet wird oder die eine geringere CO2-Intensität des Stromnetzes aufweisen. Beschränken Sie die Erstellung von Speicher-Buckets in Regionen mit hohem CO2-Ausstoß mit der Organisationsrichtlinieneinschränkung für Ressourcenstandorte. Informationen zu CO2-freier Energie und CO2-Intensität Daten für Google Cloud Regionen finden Sie unter CO2-freie Energie für Google Cloud Regionen.
Replikation minimieren
Replizieren Sie Daten nur über Regionen hinweg, um die obligatorischen Anforderungen an die Notfallwiederherstellung (Disaster Recovery, DR) oder Hochverfügbarkeit (High Availability, HA) zu erfüllen. Regionenübergreifende und multiregionale Replikationsvorgänge erhöhen die Energiekosten und den CO2-Fußabdruck Ihrer Daten erheblich.
Standorte für die Datenverarbeitung optimieren
Um den Energieverbrauch für die Netzwerkdatenübertragung zu senken, sollten Sie rechenintensive Arbeitslasten wie KI-Training und BigQuery-Verarbeitung in derselben Region wie die Datenquelle bereitstellen.
Datenverschiebung für Partner und Kunden optimieren
Wenn Sie große Datenmengen zwischen Cloud-Diensten, ‑Standorten und ‑Anbietern verschieben möchten, empfehlen Sie Ihren Partnern und Kunden, Storage Transfer Service oder APIs für die gemeinsame Nutzung von Daten zu verwenden. Vermeiden Sie Massen-Daten-Dumps. Verwenden Sie für öffentliche Datasets Buckets mit Anforderer bezahlt, um die Kosten für die Datenübertragung und ‑verarbeitung sowie die Umweltauswirkungen auf die Endnutzer zu verlagern.