Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Otimizar dados e armazenamento para sustentabilidade

Last reviewed 2026-01-28 UTC

Este princípio no pilar de sustentabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a otimizar a eficiência energética e a pegada de carbono dos seus recursos de armazenamento no Google Cloud.

Visão geral do princípio

Os dados armazenados não são um recurso passivo. O consumo de energia e as emissões de carbono ocorrem durante todo o ciclo de vida dos dados. Cada gigabyte de dados armazenados exige uma infraestrutura física que é continuamente alimentada, resfriada e gerenciada. Para alcançar uma arquitetura de nuvem sustentável, trate os dados como um ativo valioso, mas ambientalmente caro, e priorize a governança de dados proativa.

Suas decisões sobre retenção, qualidade e localização de dados podem ajudar você a alcançar reduções substanciais nos custos de nuvem e no consumo de energia. Minimize os dados armazenados, otimize onde e como você armazena os dados e implemente estratégias automatizadas de exclusão e arquivamento. Ao reduzir a desordem de dados, você melhora o desempenho do sistema e reduz fundamentalmente a pegada ambiental de longo prazo dos seus dados.

Recomendações

Para otimizar o ciclo de vida dos dados e os recursos de armazenamento para sustentabilidade, considere as recomendações nas seções a seguir.

Priorizar dados de alto valor

Os dados armazenados que não são usados, duplicados ou obsoletos continuam consumindo energia para alimentar a infraestrutura subjacente. Para reduzir a pegada de carbono relacionada ao armazenamento, use as técnicas a seguir.

Identificar e eliminar a duplicação

Estabeleça políticas para evitar a replicação desnecessária de conjuntos de dados em vários Google Cloud projetos ou serviços. Use repositórios de dados centrais como conjuntos de dados do BigQuery ou buckets do Cloud Storage como fontes únicas de verdade e conceda acesso adequado a esses repositórios.

Remover dados de sombra e dados escuros

Dados escuros são dados cuja utilidade ou proprietário é desconhecido. Dados de sombra significam cópias não autorizadas de dados. Verifique seus sistemas de armazenamento e encontre dados escuros e de sombra usando uma solução de descoberta e catalogação de dados, como Knowledge Catalog. Audite esses resultados regularmente e implemente um processo de arquivamento ou exclusão de dados escuros e de sombra, conforme apropriado.

Minimizar o volume de dados para cargas de trabalho de IA

Armazene apenas os recursos e os dados processados necessários para o treinamento e a exibição do modelo. Sempre que possível, use técnicas como amostragem de dados, agregação e geração de dados sintéticos para alcançar a performance do modelo sem depender de conjuntos de dados brutos enormes.

Integrar verificações de qualidade de dados

Implemente pipelines automáticos de validação e limpeza de dados usando serviços como Serviço Gerenciado para Apache Spark, Dataflow, ou Knowledge Catalog no ponto de ingestão de dados. Dados de baixa qualidade causam desperdício de espaço de armazenamento. Eles também levam ao consumo desnecessário de energia quando os dados são usados posteriormente para análises ou treinamento de IA.

Analisar a densidade de valor dos dados

Analise periodicamente conjuntos de dados de alto volume, como registros e fluxos de IoT. Determine se algum dado pode ser resumido, agregado ou subamostrado para manter a densidade de informações necessária e reduzir o volume de armazenamento físico.

Avaliar criticamente a necessidade de backups

Avalie a necessidade de backups de dados que podem ser regenerados com o mínimo de esforço. Exemplos desses dados incluem resultados intermediários de ETL, caches temporários e dados de treinamento derivados de uma fonte estável e permanente. Mantenha backups apenas dos dados que são exclusivos ou caros para recriar.

Otimizar o gerenciamento do ciclo de vida do armazenamento

Automatize o ciclo de vida do armazenamento para que, quando a utilidade dos dados diminuir, eles sejam movidos para uma classe de armazenamento com eficiência energética ou desativados, conforme apropriado. Use as técnicas a seguir.

Selecionar uma classe de armazenamento adequada do Cloud Storage

Automatize a transição de dados no Cloud Storage para classes de armazenamento de carbono mais baixas com base na frequência de acesso usando o Gerenciamento do ciclo de vida de objetos.

Use o armazenamento padrão apenas para conjuntos de dados usados ativamente, como modelos de produção atuais.
Faça a transição de dados, como conjuntos de dados de treinamento de IA mais antigos ou backups acessados com menos frequência, para o armazenamento Nearline ou Coldline Storage.
Para retenção de longo prazo, use o Archive Storage, que é otimizado para eficiência energética em escala.

Implementar políticas agressivas de ciclo de vida de dados

Defina políticas claras e automatizadas de time to live (TTL) para dados não essenciais, como arquivos de registro, artefatos de modelo temporários e resultados intermediários desatualizados. Use regras de ciclo de vida para excluir automaticamente esses dados após um período definido.

Exigir a inclusão de tags de recursos

Exija o uso de tags e rótulos de recursos consistentes para todos os buckets do Cloud Storage, conjuntos de dados do BigQuery e discos permanentes. Crie tags que indiquem o proprietário dos dados, a finalidade dos dados e o período de armazenamento. Use as restrições do serviço de política da organização para garantir que as tags necessárias, como o período de armazenamento, sejam aplicadas aos recursos. As tags permitem automatizar o gerenciamento do ciclo de vida, criar relatórios detalhados de FinOps e gerar relatórios de emissões de carbono.

Dimensionar corretamente e desprovisionar o armazenamento de computação

Audite regularmente os discos permanentes anexados às instâncias do Compute Engine e verifique se os discos não estão superprovisionados. Use snapshots somente quando forem necessários para backup. Exclua snapshots antigos e não usados. Para bancos de dados, use políticas de retenção de dados para reduzir o tamanho dos discos permanentes subjacentes.

Otimizar o formato de armazenamento

Para o armazenamento que atende cargas de trabalho de análise, prefira formatos colunares compactados, como Parquet ou Avro otimizado, em vez de formatos baseados em linhas, como JSON ou CSV. O armazenamento colunar reduz significativamente os requisitos de espaço em disco físico e melhora a eficiência de leitura. Essa otimização ajuda a reduzir o consumo de energia para as operações de computação e E/S associadas.

Otimizar a regionalidade e a movimentação de dados

O local físico e a movimentação dos dados afetam o consumo de recursos de rede e a energia necessária para o armazenamento. Otimize a regionalidade dos dados usando as técnicas a seguir.

Selecionar regiões de armazenamento com baixa emissão de carbono

Dependendo dos requisitos de conformidade, armazene dados em Google Cloud regiões que usam uma porcentagem maior de energia livre de carbono (CFE) ou que têm menor intensidade de carbono na rede. Restrinja a criação de buckets de armazenamento em regiões de alto carbono usando a restrição de política da organização de locais de recursos. Para informações sobre CFE e dados de intensidade de carbono para Google Cloud regiões, consulte Energia livre de carbono para Google Cloud regiões.

Minimizar a replicação

Replique dados entre regiões apenas para atender aos requisitos obrigatórios de recuperação de desastres (DR) ou de alta disponibilidade (HA). As operações de replicação entre regiões e multirregionais aumentam significativamente o custo de energia e a pegada de carbono dos seus dados.

Otimizar locais de tratamento de dados

Para reduzir o consumo de energia para transferência de dados de rede, implante cargas de trabalho com uso intenso de computação, como treinamento de IA e processamento do BigQuery, na mesma região da fonte de dados.

Otimizar a movimentação de dados para parceiros e clientes

Para mover grandes volumes de dados entre serviços de nuvem, locais e provedores, incentive seus parceiros e clientes a usar Serviço de transferência do Cloud Storage ou APIs de compartilhamento de dados. Evite despejos de dados em massa. Para conjuntos de dados públicos, use Requester Pays buckets para transferir os custos de transferência e tratamento de dados e o impacto ambiental para os usuários finais.

Desenvolver software com eficiência energética

Avançar

Medir e melhorar continuamente

Otimizar dados e armazenamento para sustentabilidade Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.