Este princípio no pilar de sustentabilidade do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a otimizar a eficiência energética e a pegada de carbono dos seus recursos de armazenamento no Google Cloud.
Visão geral do princípio
Os dados armazenados não são um recurso passivo. O consumo de energia e as emissões de carbono ocorrem durante todo o ciclo de vida dos dados. Cada gigabyte de dados armazenados exige uma infraestrutura física que é continuamente alimentada, resfriada e gerenciada. Para alcançar uma arquitetura de nuvem sustentável, trate os dados como um ativo valioso, mas ambientalmente caro, e priorize a governança de dados proativa.
Suas decisões sobre retenção, qualidade e localização de dados podem ajudar você a alcançar reduções substanciais nos custos da nuvem e no consumo de energia. Minimize os dados que você armazena, otimize onde e como você armazena os dados e implemente estratégias automatizadas de exclusão e arquivamento. Ao reduzir a desordem de dados, você melhora o desempenho do sistema e reduz fundamentalmente a pegada ambiental de longo prazo dos seus dados.
Recomendações
Para otimizar o ciclo de vida dos dados e os recursos de armazenamento para sustentabilidade, considere as recomendações nas seções a seguir.
Priorizar dados de alto valor
Os dados armazenados que não são usados, duplicados ou obsoletos continuam consumindo energia para alimentar a infraestrutura subjacente. Para reduzir a pegada de carbono relacionada ao armazenamento, use as técnicas a seguir.
Identificar e eliminar a duplicação
Estabeleça políticas para evitar a replicação desnecessária de conjuntos de dados em vários Google Cloud projetos ou serviços. Use repositórios de dados centrais como conjuntos de dados do BigQuery ou buckets do Cloud Storage como fontes únicas de verdade e conceda acesso adequado a esses repositórios.
Remover dados ocultos e dados escuros
Dados escuros são dados para os quais a utilidade ou o proprietário é desconhecido. Dados ocultos significam cópias não autorizadas de dados. Verifique seus sistemas de armazenamento e encontre dados escuros e ocultos usando uma solução de descoberta e catalogação de dados, como o Dataplex Universal Catalog. Audite esses resultados regularmente e implemente um processo de arquivamento ou exclusão de dados escuros e ocultos, conforme apropriado.
Minimizar o volume de dados para cargas de trabalho de IA
Armazene apenas os recursos e os dados processados necessários para o treinamento de modelo e a disponibilização. Sempre que possível, use técnicas como amostragem de dados, agregação e geração de dados sintéticos para alcançar a performance do modelo sem depender de conjuntos de dados brutos enormes.
Integrar verificações de qualidade de dados
Implemente pipelines automáticos de validação e limpeza de dados usando serviços como Dataproc, Dataflow, ou Dataplex Universal Catalog no ponto de ingestão de dados. Dados de baixa qualidade causam desperdício de espaço de armazenamento. Eles também levam ao consumo desnecessário de energia quando os dados são usados posteriormente para análise de dados ou treinamento de IA.
Analisar a densidade de valor dos dados
Analise periodicamente conjuntos de dados de alto volume, como registros e fluxos de IoT. Determine se algum dado pode ser resumido, agregado ou subamostrado para manter a densidade de informações necessária e reduzir o volume de armazenamento físico.
Avaliar criticamente a necessidade de backups
Avalie a necessidade de backups de dados que podem ser regenerados com o mínimo de esforço. Exemplos desses dados incluem resultados intermediários de ETL, caches temporários e dados de treinamento derivados de uma fonte estável e permanente. Mantenha backups apenas dos dados que são exclusivos ou caros para recriar.
Otimizar o gerenciamento do ciclo de vida do armazenamento
Automatize o ciclo de vida do armazenamento para que, quando a utilidade dos dados diminuir, eles sejam movidos para uma classe de armazenamento com eficiência energética ou desativados, conforme apropriado. Use as técnicas a seguir.
Selecionar uma classe de armazenamento adequada do Cloud Storage
- Use o Standard Storage apenas para conjuntos de dados usados ativamente, como modelos de produção atuais.
- Faça a transição de dados, como conjuntos de dados de treinamento de IA mais antigos ou backups acessados com menos frequência, para o armazenamento Nearline ou Coldline Storage.
- Para retenção de longo prazo, use o Archive Storage, que é otimizado para eficiência energética em escala.
Implementar políticas agressivas de ciclo de vida de dados
Defina políticas claras e automatizadas de time to live (TTL) para dados não essenciais, como arquivos de registro, artefatos de modelo temporários e resultados intermediários desatualizados. Use regras de ciclo de vida para excluir automaticamente esses dados após um período definido.
Exigir a inclusão de tags de recursos
Exija o uso de tags e rótulos de recursos consistentes para todos os buckets do Cloud Storage, conjuntos de dados do BigQuery e discos permanentes. Crie tags que indiquem o proprietário dos dados, a finalidade dos dados e o período de armazenamento. Use as restrições do serviço de política da organização para garantir que as tags necessárias, como o período de armazenamento, sejam aplicadas aos recursos. As tags permitem automatizar o gerenciamento do ciclo de vida, criar relatórios detalhados de FinOps e gerar relatórios de emissões de carbono.
Dimensionar corretamente e desprovisionar o armazenamento de computação
Audite regularmente os discos permanentes anexados às instâncias do Compute Engine e verifique se os discos não estão superprovisionados. Use snapshots somente quando forem necessários para backup. Exclua snapshots antigos e não usados. Para bancos de dados, use políticas de retenção de dados para reduzir o tamanho dos discos permanentes subjacentes.
Otimizar o formato de armazenamento
Para o armazenamento que atende cargas de trabalho de análise, prefira formatos colunares compactados, como Parquet ou Avro otimizado, em vez de formatos baseados em linhas, como JSON ou CSV. O armazenamento colunar reduz significativamente os requisitos de espaço em disco físico e melhora a eficiência de leitura. Essa otimização ajuda a reduzir o consumo de energia para as operações de computação e E/S associadas.
Otimizar a regionalidade e a movimentação de dados
O local físico e a movimentação dos dados afetam o consumo de recursos de rede e a energia necessária para o armazenamento. Otimize a regionalidade dos dados usando as técnicas a seguir.
Selecionar regiões de armazenamento com baixa emissão de carbono
Dependendo dos requisitos de conformidade, armazene dados em Google Cloud regiões que usam uma porcentagem maior de energia livre de carbono (CFE, na sigla em inglês) ou que têm menor intensidade de carbono na rede. Restrinja a criação de buckets de armazenamento em regiões de alto carbono usando a restrição de política da organização de locais de recursos. Para informações sobre CFE e dados de intensidade de carbono para Google Cloud regiões, consulte Energia livre de carbono para Google Cloud regiões.
Minimizar a replicação
Replique dados entre regiões apenas para atender aos requisitos obrigatórios de recuperação de desastres (DR) ou de alta disponibilidade (HA). As operações de replicação entre regiões e multirregionais aumentam significativamente o custo de energia e a pegada de carbono dos seus dados.
Otimizar locais de tratamento de dados
Para reduzir o consumo de energia para transferência de dados de rede, implante cargas de trabalho com uso intenso de computação, como treinamento de IA e tratamento do BigQuery, na mesma região da fonte de dados.
Otimizar a movimentação de dados para parceiros e clientes
Para mover grandes volumes de dados entre serviços de nuvem, locais e provedores, incentive seus parceiros e clientes a usar Serviço de transferência do Cloud Storage ou APIs de compartilhamento de dados. Evite despejos de dados em massa. Para conjuntos de dados públicos, use Requester Pays buckets para transferir os custos de transferência e tratamento de dados e o impacto ambiental para os usuários finais.