Otimizar dados e armazenamento para sustentabilidade

Last reviewed 2026-01-28 UTC

Esse princípio no pilar de sustentabilidade do Google Cloud Framework bem arquitetado fornece recomendações para ajudar você a otimizar a eficiência energética e a pegada de carbono dos seus recursos de armazenamento no Google Cloud.

Visão geral do princípio

Os dados armazenados não são um recurso passivo. O consumo de energia e as emissões de carbono ocorrem durante todo o ciclo de vida dos dados. Cada gigabyte de dados armazenados exige uma infraestrutura física que é continuamente alimentada, resfriada e gerenciada. Para criar uma arquitetura de nuvem sustentável, trate os dados como um ativo valioso, mas ambientalmente caro, e priorize a governança de dados proativa.

Suas decisões sobre retenção, qualidade e localização de dados podem ajudar você a reduzir significativamente os custos de nuvem e o consumo de energia. Minimize os dados armazenados, otimize onde e como eles são armazenados e implemente estratégias automatizadas de exclusão e arquivamento. Ao reduzir a desordem de dados, você melhora o desempenho do sistema e reduz fundamentalmente a pegada ambiental de longo prazo dos seus dados.

Recomendações

Para otimizar o ciclo de vida dos dados e os recursos de armazenamento para sustentabilidade, considere as recomendações nas seções a seguir.

Priorizar dados de alto valor

Os dados armazenados que não são usados, estão duplicados ou obsoletos continuam consumindo energia para alimentar a infraestrutura subjacente. Para reduzir a pegada de carbono relacionada ao armazenamento, use as técnicas a seguir.

Identificar e eliminar a duplicação

Estabeleça políticas para evitar a replicação desnecessária de conjuntos de dados em vários projetos ou serviços do Google Cloud . Use repositórios de dados centrais, como conjuntos de dados do BigQuery ou buckets do Cloud Storage, como fontes únicas de verdade e conceda acesso adequado a esses repositórios.

Remover dados obscuros e de sombra

Dados ocultos são dados cuja utilidade ou proprietário é desconhecido. Dados secundários são cópias não autorizadas de dados. Verifique seus sistemas de armazenamento e encontre dados desconhecidos e secundários usando uma solução de descoberta e catalogação de dados como o Dataplex Universal Catalog. Audite regularmente essas descobertas e implemente um processo de arquivamento ou exclusão de dados invisíveis e secundários, conforme apropriado.

Minimizar o volume de dados para cargas de trabalho de IA

Armazene apenas os recursos e os dados processados necessários para o treinamento e a disponibilização do modelo. Sempre que possível, use técnicas como amostragem, agregação e geração de dados sintéticos para alcançar a performance do modelo sem depender de conjuntos de dados brutos enormes.

Integrar verificações de qualidade de dados

Implemente pipelines automáticos de validação e limpeza de dados usando serviços como Dataproc, Dataflow ou Dataplex Universal Catalog no momento da ingestão de dados. Dados de baixa qualidade causam desperdício de espaço de armazenamento. Além disso, causa consumo desnecessário de energia quando os dados são usados posteriormente para análises ou treinamento de IA.

Analisar a densidade de valor dos dados

Revise periodicamente conjuntos de dados de alto volume, como registros e streams de IoT. Determine se é possível resumir, agregar ou reduzir a amostragem de dados para manter a densidade de informações necessária e reduzir o volume de armazenamento físico.

Avalie criticamente a necessidade de backups

Avalie a necessidade de backups de dados que podem ser regenerados com o mínimo de esforço. Exemplos desses dados incluem resultados intermediários de ETL, caches efêmeros e dados de treinamento derivados de uma fonte estável e permanente. Mantenha backups apenas dos dados exclusivos ou caros de recriar.

Otimizar o gerenciamento do ciclo de vida de armazenamento

Automatize o ciclo de vida do armazenamento para que, quando a utilidade dos dados diminuir, eles sejam movidos para uma classe de armazenamento eficiente em termos de energia ou desativados, conforme apropriado. Use as seguintes técnicas.

Selecione uma classe adequada do Cloud Storage

Automatize a transição de dados no Cloud Storage para classes de armazenamento de menor emissão de carbono com base na frequência de acesso usando o Gerenciamento do ciclo de vida de objetos.

  • Use o Standard Storage apenas para conjuntos de dados usados ativamente, como modelos de produção atuais.
  • Migre dados, como conjuntos de dados de treinamento de IA mais antigos ou backups acessados com menos frequência, para o armazenamento Nearline ou Coldline.
  • Para retenção de longo prazo, use o Archive Storage, que é otimizado para eficiência energética em grande escala.

Implementar políticas agressivas de ciclo de vida de dados

Defina políticas de time to live (TTL) claras e automatizadas para dados não essenciais, como arquivos de registros, artefatos de modelos temporários e resultados intermediários desatualizados. Use regras de ciclo de vida para excluir automaticamente esses dados após um período definido.

Exigir inclusão de tags de recursos

Exija o uso de tags e rótulos de recursos consistentes para todos os buckets do Cloud Storage, conjuntos de dados do BigQuery e discos permanentes. Crie tags que indiquem o proprietário dos dados, a finalidade deles e o período de armazenamento. Use as restrições do serviço de política da organização para garantir que as tags necessárias, como o período de armazenamento, sejam aplicadas aos recursos. Com as tags, é possível automatizar o gerenciamento do ciclo de vida, criar relatórios detalhados de FinOps e gerar relatórios de emissões de carbono.

Dimensionar e desprovisionar o armazenamento de computação

Audite regularmente os discos permanentes anexados às instâncias do Compute Engine e verifique se eles não estão superprovisionados. Use snapshots somente quando eles forem necessários para backup. Exclua snapshots antigos e não usados. Para bancos de dados, use políticas de retenção de dados para reduzir o tamanho dos discos permanentes subjacentes.

Otimizar o formato de armazenamento

Para armazenamento que atende a cargas de trabalho de análise, prefira formatos colunares compactados, como Parquet ou Avro otimizado, em vez de formatos baseados em linhas, como JSON ou CSV. O armazenamento em colunas reduz significativamente os requisitos de espaço em disco físico e melhora a eficiência de leitura. Essa otimização ajuda a reduzir o consumo de energia das operações de computação e E/S associadas.

Otimizar a regionalidade e a movimentação de dados

A localização física e a movimentação dos seus dados afetam o consumo de recursos de rede e a energia necessária para o armazenamento. Otimize a regionalidade dos dados usando as técnicas a seguir.

Selecionar regiões de armazenamento com baixa emissão de carbono

Dependendo dos seus requisitos de compliance, armazene dados em regiões Google Cloud que usam uma porcentagem maior de energia livre de carbono (CFE) ou que têm menor intensidade de carbono na rede. Restrinja a criação de buckets de armazenamento em regiões de alta emissão de carbono usando a restrição de política da organização de locais de recursos. Para informações sobre CFE e dados de intensidade de carbono para regiões de Google Cloud , consulte Energia livre de carbono para regiões de Google Cloud .

Minimizar a replicação

Replique dados entre regiões apenas para atender aos requisitos obrigatórios de recuperação de desastres (DR) ou alta disponibilidade (HA). As operações de replicação entre regiões e multirregionais aumentam significativamente o custo de energia e a pegada de carbono dos seus dados.

Otimizar locais de tratamento de dados

Para reduzir o consumo de energia na transferência de dados de rede, implante cargas de trabalho com uso intensivo de computação, como treinamento de IA e processamento do BigQuery, na mesma região da fonte de dados.

Otimizar a movimentação de dados para parceiros e clientes

Para mover grandes volumes de dados entre serviços, locais e provedores de nuvem, incentive seus parceiros e clientes a usar o Serviço de transferência do Cloud Storage ou APIs de compartilhamento de dados. Evite despejos de dados em massa. Para conjuntos de dados públicos, use buckets Pagamento pelo solicitante para transferir os custos de transferência e tratamento de dados e o impacto ambiental para os usuários finais.