Ottimizzare i dati e l'archiviazione per la sostenibilità

Last reviewed 2026-01-28 UTC

Questo principio del pilastro della sostenibilità del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a ottimizzare l'efficienza energetica e l'impronta di carbonio delle tue risorse di archiviazione in Google Cloud.

Panoramica del principio

I dati archiviati non sono una risorsa passiva. Il consumo di energia e le emissioni di anidride carbonica si verificano durante tutto il ciclo di vita dei dati. Ogni gigabyte di dati archiviati richiede un'infrastruttura fisica che viene alimentata, raffreddata e gestita continuamente. Per ottenere un'architettura cloud sostenibile, tratta i dati come una risorsa preziosa ma costosa dal punto di vista ambientale e dai la priorità alla governance dei dati proattiva.

Le tue decisioni in merito a conservazione, qualità e località dei dati possono aiutarti a ottenere riduzioni sostanziali dei costi del cloud e del consumo energetico. Riduci al minimo i dati archiviati, ottimizza dove e come li archivi e implementa strategie di eliminazione e archiviazione automatizzate. Quando riduci l'ingombro dei dati, migliori le prestazioni del sistema e riduci fondamentalmente l'impronta ambientale a lungo termine dei tuoi dati.

Consigli

Per ottimizzare il ciclo di vita dei dati e le risorse di archiviazione per la sostenibilità, prendi in considerazione i consigli riportati nelle sezioni seguenti.

Dai la priorità ai dati di alto valore

I dati archiviati non utilizzati, duplicati o obsoleti continuano a consumare energia per alimentare l'infrastruttura sottostante. Per ridurre l'impronta di carbonio correlata all'archiviazione, utilizza le seguenti tecniche.

Identifica ed elimina la duplicazione

Stabilisci policy per impedire la replica non necessaria dei set di dati in più progetti Google Cloud o servizi. Utilizza repository di dati centrali come set di dati BigQuery o bucket Cloud Storage come singole fonti di verità e concedi l'accesso appropriato a questi repository.

Rimuovi i dati ombra e i dati oscuri

I dati oscuri sono dati di cui non si conosce l'utilità o il proprietario. I dati ombra sono copie non autorizzate di dati. Scansiona i sistemi di archiviazione e trova i dati oscuri e i dati ombra utilizzando una soluzione di rilevamento e catalogazione dei dati come Knowledge Catalog. Controlla regolarmente questi risultati e implementa una procedura per l'archiviazione o l'eliminazione dei dati oscuri e ombra, a seconda dei casi.

Riduci al minimo il volume di dati per i carichi di lavoro AI

Archivia solo le funzionalità e i dati elaborati necessari per l'addestramento e l'erogazione dei modelli. Ove possibile, utilizza tecniche come il campionamento dei dati, l'aggregazione e la generazione di dati sintetici per ottenere le prestazioni del modello senza fare affidamento su set di dati non elaborati di grandi dimensioni.

Integra i controlli di qualità dei dati

Implementa pipeline di convalida e pulizia automatica dei dati utilizzando servizi come Managed Service for Apache Spark, Dataflow, o Knowledge Catalog al momento dell'importazione dati. I dati di bassa qualità causano uno spreco di spazio di archiviazione. Inoltre, comportano un consumo energetico non necessario quando i dati vengono utilizzati in un secondo momento per i dati e analisi o l'addestramento dell'AI.

Esamina la densità di valore dei dati

Esamina periodicamente i set di dati di grandi dimensioni come i log e gli stream IoT. Determina se è possibile riepilogare, aggregare o sottocampionare i dati per mantenere la densità di informazioni richiesta e ridurre il volume di archiviazione fisica.

Valuta in modo critico la necessità di backup

Valuta la necessità di backup dei dati che puoi rigenerare con il minimo sforzo. Esempi di questi dati includono risultati ETL intermedi, cache effimere e dati di addestramento derivati da un'origine stabile e permanente. Conserva i backup solo per i dati unici o costosi da ricreare.

Ottimizza la gestione del ciclo di vita dell'archiviazione

Automatizza il ciclo di vita dell'archiviazione in modo che, quando l'utilità dei dati diminuisce, i dati vengano spostati in una classe di archiviazione a basso consumo energetico o ritirati, a seconda dei casi. Utilizza le seguenti tecniche.

Seleziona una classe di archiviazione Cloud Storage appropriata

Automatizza la transizione dei dati in Cloud Storage a classi di archiviazione a basse emissioni di carbonio in base alla frequenza di accesso utilizzando la gestione del ciclo di vita degli oggetti.

  • Utilizza Standard Storage solo per i set di dati utilizzati attivamente, ad esempio i modelli di produzione correnti.
  • Esegui la transizione dei dati, come i set di dati di addestramento AI meno recenti o i backup a cui si accede meno frequentemente, all'archiviazione Nearline o Coldline Storage.
  • Per la conservazione a lungo termine, utilizza l'archiviazione Archive Storage, ottimizzata per l'efficienza energetica su larga scala.

Implementa policy aggressive del ciclo di vita dei dati

Definisci policy di durata (TTL) chiare e automatizzate per i dati non essenziali, come file di log, artefatti di modelli temporanei e risultati intermedi obsoleti. Utilizza le regole del ciclo di vita per eliminare automaticamente questi dati dopo un periodo definito.

Richiedi l'applicazione di tag alle risorse

Richiedi l'utilizzo di tag ed etichette di risorse coerenti per tutti i bucket Cloud Storage, i set di dati BigQuery e i dischi permanenti. Crea tag che indicano il proprietario dei dati, lo scopo dei dati e il periodo di conservazione. Utilizza i vincoli del servizio Criteri dell'organizzazione per assicurarti che i tag obbligatori, come il periodo di conservazione, vengano applicati alle risorse. I tag ti consentono di automatizzare la gestione del ciclo di vita, creare report FinOps granulari e generare report sulle emissioni di carbonio.

Dimensiona correttamente e annulla il provisioning dell'archiviazione di Compute

Controlla regolarmente i dischi permanenti collegati alle istanze Compute Engine e assicurati che non sia stato eseguito il provisioning eccessivo dei dischi. Utilizza gli snapshot solo quando sono necessari per il backup. Elimina gli snapshot vecchi e inutilizzati. Per i database, utilizza le policy di conservazione dei dati per ridurre le dimensioni dei dischi permanenti sottostanti.

Ottimizza il formato di archiviazione

Per l'archiviazione che gestisce i carichi di lavoro di analisi, preferisci i formati compressi e a colonne come Parquet o Avro ottimizzato rispetto ai formati basati su righe come JSON o CSV. L'archiviazione a colonne riduce significativamente i requisiti di spazio su disco fisico e migliora l'efficienza di lettura. Questa ottimizzazione contribuisce a ridurre il consumo energetico per le operazioni di computing e I/O associate.

Ottimizza la regionalità e lo spostamento dei dati

La posizione fisica e lo spostamento dei dati influiscono sul consumo di risorse di rete e sull'energia necessaria per l'archiviazione. Ottimizza la regionalità dei dati utilizzando le seguenti tecniche.

Seleziona regioni di archiviazione a basse emissioni di carbonio

A seconda dei requisiti di conformità, archivia i dati in Google Cloud regioni che utilizzano una percentuale maggiore di energia a zero emissioni di carbonio (CFE) o che hanno un'intensità di carbonio della rete inferiore. Limita la creazione di bucket di archiviazione nelle regioni ad alto contenuto di carbonio utilizzando il vincolo della policy dell'organizzazione per le località delle risorse. Per informazioni sui dati CFE e sull'intensità di carbonio per le Google Cloud regioni, consulta Energia a zero emissioni di carbonio per le Google Cloud regioni.

Riduci al minimo la replica

Replica i dati tra le regioni solo per soddisfare i requisiti obbligatori di ripristino di emergenza (RE) o di alta disponibilità (HA). Le operazioni di replica tra regioni e multiregionali aumentano significativamente il costo energetico e l'impronta di carbonio dei dati.

Ottimizza le località di trattamento dei dati

Per ridurre il consumo energetico per il trasferimento di dati di rete, esegui il deployment di carichi di lavoro a elevato utilizzo di computing come l'addestramento AI e il trattamento BigQuery nella stessa regione dell'origine dati.

Ottimizza lo spostamento dei dati per partner e clienti

Per spostare grandi volumi di dati tra servizi cloud, località e provider, incoraggia i partner e i clienti a utilizzare Storage Transfer Service o le API di condivisione dei dati. Evita i dump di dati di massa. Per i set di dati pubblici, utilizza Richiedente paga bucket per spostare i costi di trasferimento e trattamento dei dati e l'impatto ambientale sugli utenti finali.