Ottimizzare i dati e l'archiviazione per la sostenibilità

Last reviewed 2026-01-28 UTC

Questo principio del pilastro della sostenibilità del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a ottimizzare l'efficienza energetica e l'impronta di carbonio per le tue risorse di archiviazione in Google Cloud.

Panoramica del principio

I dati archiviati non sono una risorsa passiva. L'energia viene consumata e le emissioni di anidride carbonica si verificano durante tutto il ciclo di vita dei dati. Ogni gigabyte di dati archiviati richiede un'infrastruttura fisica continuamente alimentata, raffreddata e gestita. Per ottenere un'architettura cloud sostenibile, tratta i dati come un asset prezioso ma costoso per l'ambiente e dai la priorità alla governance proattiva dei dati.

Le tue decisioni in merito a conservazione, qualità e posizione dei dati possono aiutarti a ottenere riduzioni sostanziali dei costi del cloud e del consumo energetico. Riduci al minimo i dati che archivi, ottimizza dove e come archiviarli e implementa strategie di eliminazione e archiviazione automatizzate. Quando riduci il disordine dei dati, migliori le prestazioni del sistema e riduci in modo sostanziale l'impronta ambientale a lungo termine dei tuoi dati.

Consigli

Per ottimizzare il ciclo di vita dei dati e le risorse di archiviazione in funzione della sostenibilità, valuta i consigli riportati nelle sezioni seguenti.

Dare la priorità ai dati di alto valore

I dati archiviati inutilizzati, duplicati o obsoleti continuano a consumare energia per alimentare l'infrastruttura sottostante. Per ridurre l'impatto ambientale correlato allo spazio di archiviazione, utilizza le seguenti tecniche.

Identificare ed eliminare le duplicazioni

Stabilisci criteri per impedire la replica non necessaria di set di dati in più progetti o servizi. Google Cloud Utilizza repository di dati centrali come set di dati BigQuery o bucket Cloud Storage come singole fonti attendibili e concedi l'accesso appropriato a questi repository.

Rimuovere i dati ombra e i dark data

I dati oscuri sono dati per i quali non è noto il proprietario o l'utilità. Dati ombra indica copie non autorizzate di dati. Scansiona i tuoi sistemi di archiviazione e trova dati oscuri e dati ombra utilizzando una soluzione di rilevamento e catalogazione dei dati come Dataplex Universal Catalog. Verifica regolarmente questi risultati e implementa una procedura per l'archiviazione o l'eliminazione dei dati oscuri e ombra, a seconda dei casi.

Ridurre al minimo il volume di dati per i workload di AI

Archivia solo le funzionalità e i dati elaborati necessari per l'addestramento e la distribuzione del modello. Ove possibile, utilizza tecniche come il campionamento, l'aggregazione e la generazione di dati sintetici per ottenere il rendimento del modello senza fare affidamento su set di dati non elaborati di grandi dimensioni.

Integrare i controlli della qualità dei dati

Implementa pipeline di convalida e pulizia automatica dei dati utilizzando servizi come Dataproc, Dataflow o Dataplex Universal Catalog al momento dell'importazione dei dati. I dati di bassa qualità causano uno spreco di spazio di archiviazione. Inoltre, comporta un consumo energetico non necessario quando i dati vengono utilizzati in un secondo momento per l'analisi o l'addestramento dell'AI.

Esaminare la densità di valore dei dati

Esamina periodicamente i set di dati di grandi dimensioni come i log e gli stream IoT. Determina se è possibile riepilogare, aggregare o sottocampionare i dati per mantenere la densità di informazioni richiesta e ridurre il volume di archiviazione fisica.

Valuta in modo critico la necessità di backup

Valuta la necessità di eseguire backup dei dati che puoi rigenerare con il minimo sforzo. Esempi di questi dati includono risultati ETL intermedi, cache effimere e dati di addestramento derivati da un'origine stabile e permanente. Conserva i backup solo dei dati unici o costosi da ricreare.

Ottimizzare la gestione del ciclo di vita dell'archiviazione

Automatizza il ciclo di vita dell'archiviazione in modo che, quando l'utilità dei dati diminuisce, i dati vengano spostati in una classe di archiviazione a basso consumo energetico o ritirati, a seconda dei casi. Utilizza le seguenti tecniche.

Seleziona una classe Cloud Storage appropriata

Automatizza la transizione dei dati in Cloud Storage a classi di archiviazione a emissioni di carbonio inferiori in base alla frequenza di accesso utilizzando la gestione del ciclo di vita degli oggetti.

  • Utilizza l'archiviazione Standard solo per i set di dati utilizzati attivamente, ad esempio i modelli di produzione attuali.
  • Trasferisci i dati, come i set di dati di addestramento dell'AI meno recenti o i backup a cui si accede meno frequentemente, all'archiviazione Nearline o Coldline.
  • Per la conservazione a lungo termine, utilizza l'archiviazione Archive, ottimizzata per l'efficienza energetica su larga scala.

Implementa policy aggressive del ciclo di vita dei dati

Definisci criteri di durata (TTL) chiari e automatizzati per i dati non essenziali, come file di log, artefatti di modelli temporanei e risultati intermedi obsoleti. Utilizza le regole del ciclo di vita per eliminare automaticamente questi dati dopo un periodo definito.

Imporre il tagging delle risorse

Rendi obbligatorio l'utilizzo di tag e etichette delle risorse coerenti per tutti i bucket Cloud Storage, i set di dati BigQuery e i dischi permanenti. Crea tag che indicano il proprietario dei dati, lo scopo dei dati e il periodo di conservazione. Utilizza i vincoli del servizio Policy dell'organizzazione per assicurarti che i tag richiesti, come il periodo di conservazione, vengano applicati alle risorse. I tag ti consentono di automatizzare la gestione del ciclo di vita, creare report FinOps granulari e produrre report sulle emissioni di carbonio.

Dimensionare correttamente e deprovisionare lo spazio di archiviazione di computing

Controlla regolarmente i dischi permanenti collegati alle istanze Compute Engine e assicurati che non sia stato eseguito il provisioning eccessivo dei dischi. Utilizza gli snapshot solo quando sono necessari per il backup. Elimina gli snapshot meno recenti e inutilizzati. Per i database, utilizza le norme di conservazione dei dati per ridurre le dimensioni dei dischi permanenti sottostanti.

Ottimizzare il formato di archiviazione

Per lo spazio di archiviazione che gestisce i carichi di lavoro di analisi, preferisci formati compressi e colonnari come Parquet o Avro ottimizzato rispetto a formati basati su righe come JSON o CSV. L'archiviazione colonnare riduce notevolmente i requisiti di spazio su disco fisico e migliora l'efficienza di lettura. Questa ottimizzazione contribuisce a ridurre il consumo energetico per le operazioni di calcolo e I/O associate.

Ottimizzare la regionalità e lo spostamento dei dati

La posizione fisica e lo spostamento dei dati influiscono sul consumo di risorse di rete e sull'energia necessaria per l'archiviazione. Ottimizza la regionalità dei dati utilizzando le seguenti tecniche.

Selezionare le regioni di archiviazione a basse emissioni di carbonio

A seconda dei requisiti di conformità, archivia i dati in regioni che utilizzano una percentuale maggiore di energia a impatto zero o che hanno un'intensità di emissioni di carbonio della rete inferiore. Google Cloud Limita la creazione di bucket di archiviazione nelle regioni con emissioni di carbonio elevate utilizzando il vincolo di policy dell'organizzazione località delle risorse. Per informazioni sui dati relativi all'energia a zero emissioni di CO2 e all'intensità di emissioni di carbonio per le regioni Google Cloud , consulta Energia a zero emissioni di CO2 per le regioni Google Cloud .

Ridurre al minimo la replica

Replica i dati tra le regioni solo per soddisfare i requisiti obbligatori di ripristino di emergenza (RE) o alta disponibilità (HA). Le operazioni di replica tra regioni e multiregionale aumentano in modo significativo il costo dell'energia e l'impronta di carbonio dei tuoi dati.

Ottimizzare le località di trattamento dei dati

Per ridurre il consumo di energia per il trasferimento dei dati di rete, esegui il deployment di carichi di lavoro a elevato utilizzo di risorse di calcolo come l'addestramento dell'AI e l'elaborazione BigQuery nella stessa regione dell'origine dati.

Ottimizzare il trasferimento dei dati per partner e clienti

Per spostare grandi volumi di dati tra servizi cloud, località e provider, invita i tuoi partner e clienti a utilizzare Storage Transfer Service o le API di condivisione dei dati. Evita i dump di dati di massa. Per i set di dati pubblici, utilizza i bucket Requester Pays per trasferire i costi di trasferimento ed elaborazione dei dati e l'impatto ambientale agli utenti finali.