지속 가능성을 위해 데이터 및 스토리지 최적화

Last reviewed 2026-01-28 UTC

Well-Architected 프레임워크의 지속 가능성 부문의 이 원칙에서는 스토리지 리소스의 에너지 효율성과 탄소 발자국을 최적화하는 데 도움이 되는 권장사항을 제공합니다.Google Cloud Google Cloud

원칙 개요

저장된 데이터는 수동적인 리소스가 아닙니다. 데이터의 수명 주기 전반에서 에너지가 소비되고 탄소 배출이 발생합니다. 저장된 데이터 1GB마다 지속적으로 전원이 공급되고 냉각되며 관리되는 물리적 인프라가 필요합니다. 지속가능한 클라우드 아키텍처를 구현하려면 데이터를 가치 있지만 환경적으로 비용이 많이 드는 애셋으로 취급하고 사전 예방적 데이터 거버넌스를 우선시하세요.

데이터 보관, 품질, 위치에 관한 결정을 내리면 클라우드 비용과 에너지 소비를 크게 줄일 수 있습니다. 저장하는 데이터를 최소화하고, 데이터를 저장하는 위치와 방법을 최적화하며, 자동 삭제 및 보관처리 전략을 구현하세요. 데이터 클러터를 줄이면 시스템 성능이 개선되고 데이터의 장기적인 환경 발자국이 근본적으로 줄어듭니다.

권장사항

지속가능성을 위해 데이터 수명 주기와 스토리지 리소스를 최적화하려면 다음 섹션의 권장사항을 고려하세요.

가치가 높은 데이터 우선시

사용되지 않거나 중복되거나 오래된 저장된 데이터는 계속해서 기본 인프라에 전원을 공급하는 데 에너지를 소비합니다. 스토리지 관련 탄소 발자국을 줄이려면 다음 기법을 사용하세요.

중복 식별 및 제거

여러 프로젝트 또는 서비스에서 데이터 세트가 불필요하게 복제되는 것을 방지하는 정책을 수립합니다. Google Cloud BigQuery 데이터 세트 또는 Cloud Storage 버킷 과 같은 중앙 데이터 저장소를 단일 정보 소스로 사용하고 이러한 저장소에 적절한 액세스 권한을 부여합니다.

섀도우 데이터 및 다크 데이터 삭제

다크 데이터 는 유틸리티 또는 소유자를 알 수 없는 데이터입니다. 섀도우 데이터 는 승인되지 않은 데이터 사본을 의미합니다. Knowledge Catalog와 같은 데이터 검색 및 카탈로그 솔루션을 사용하여 스토리지 시스템을 검사하고 다크 데이터 와 섀도우 데이터를 찾습니다. 이러한 결과를 정기적으로 감사하고 다크 데이터와 섀도우 데이터를 적절하게 보관처리하거나 삭제하는 프로세스를 구현합니다.

AI 워크로드의 데이터 볼륨 최소화

모델 학습 및 제공에 필요한 기능과 처리된 데이터만 저장합니다. 가능한 경우 데이터 샘플링, 집계, 합성 데이터 생성과 같은 기법을 사용하여 대규모 원시 데이터 세트에 의존하지 않고 모델 성능을 달성합니다.

데이터 품질 검사 통합

데이터 수집 시점에 Managed Service for Apache Spark, Dataflow, 또는 Knowledge Catalog와 같은 서비스를 사용하여 자동 데이터 유효성 검사 및 데이터 정리 파이프라인을 구현합니다. 품질이 낮은 데이터는 스토리지 공간을 낭비합니다. 또한 나중에 데이터가 분석 또는 AI 학습에 사용될 때 불필요한 에너지 소비로 이어집니다.

데이터의 값 밀도 검토

로그 및 IoT 스트림과 같은 대용량 데이터 세트를 정기적으로 검토합니다. 필요한 정보 밀도를 유지하고 물리적 스토리지 볼륨을 줄이기 위해 데이터를 요약, 집계 또는 다운샘플링할 수 있는지 확인합니다.

백업의 필요성 비판적으로 평가

최소한의 노력으로 재생성할 수 있는 데이터의 백업 필요성을 평가합니다. 이러한 데이터의 예로는 중간 ETL 결과, 임시 캐시, 안정적인 영구 소스에서 파생된 학습 데이터가 있습니다. 고유하거나 다시 만드는 데 비용이 많이 드는 데이터의 백업만 보관합니다.

스토리지 수명 주기 관리 최적화

데이터의 유틸리티가 감소하면 데이터가 에너지 효율적인 스토리지 클래스로 이동하거나 적절하게 폐기되도록 스토리지 수명 주기를 자동화합니다. 다음 기법을 사용하세요.

적절한 Cloud Storage 스토리지 클래스 선택

객체 수명 주기 관리를 사용하여 액세스 빈도에 따라 Cloud Storage의 데이터를 탄소 배출량이 더 낮은 스토리지 클래스로 자동 전환합니다 .

  • 현재 프로덕션 모델과 같이 활발하게 사용되는 데이터 세트에만 Standard Storage를 사용합니다.
  • 이전 AI 학습 데이터 세트 또는 액세스 빈도가 낮은 백업과 같은 데이터를 Nearline 또는 Coldline Storage로 전환합니다.
  • 장기 보관에는 규모에 맞게 에너지 효율성을 최적화한 Archive Storage를 사용합니다.

공격적인 데이터 수명 주기 정책 구현

로그 파일, 임시 모델 아티팩트, 오래된 중간 결과와 같은 중요하지 않은 데이터에 대해 명확하고 자동화된 TTL (수명) 정책을 정의합니다. 수명 주기 규칙을 사용하여 정의된 기간이 지나면 이러한 데이터를 자동으로 삭제합니다.

리소스 태그 지정 의무화

모든 Cloud Storage 버킷, BigQuery 데이터 세트, 영구 디스크에 일관된 리소스 태그와 라벨을 사용하도록 의무화합니다. 데이터 소유자, 데이터의 목적, 보관 기간을 나타내는 태그를 만듭니다. 조직 정책 서비스 제약조건을 사용하여 보관 기간과 같은 필수 태그가 리소스에 적용되도록 합니다. 태그를 사용하면 수명 주기 관리를 자동화하고, 세분화된 FinOps 보고서를 만들고, 탄소 배출량 보고서를 생성할 수 있습니다.

컴퓨팅 스토리지 적정 규모 조정 및 프로비저닝 해제

Compute Engine 인스턴스에 연결된 영구 디스크를 정기적으로 감사하고 디스크가 과도하게 프로비저닝되지 않도록 합니다. 스냅샷은 백업에 필요한 경우에만 사용합니다. 오래되고 사용하지 않는 스냅샷을 삭제합니다. 데이터베이스의 경우 데이터 보관 정책을 사용하여 기본 영구 디스크의 크기를 줄입니다.

스토리지 형식 최적화

분석 워크로드를 제공하는 스토리지의 경우 JSON 또는 CSV와 같은 행 기반 형식보다 Parquet 또는 최적화된 Avro와 같은 압축된 열 형식으로 지정합니다. 열 기반 스토리지는 물리적 디스크 공간 요구사항을 크게 줄이고 읽기 효율성을 개선합니다. 이 최적화는 관련 컴퓨팅 및 I/O 작업의 에너지 소비를 줄이는 데 도움이 됩니다.

지역성 및 데이터 이동 최적화

데이터의 물리적 위치와 이동은 네트워크 리소스 소비와 스토리지에 필요한 에너지에 영향을 미칩니다. 다음 기법을 사용하여 데이터 지역성을 최적화합니다.

탄소 배출량이 낮은 스토리지 리전 선택

규정 준수 요구사항에 따라 무탄소 에너지 (CFE) 비율이 더 높거나 그리드 탄소 집약도가 더 낮은 Google Cloud 리전 에 데이터를 저장합니다. 리소스 위치 조직 정책 제약조건을 사용하여 탄소 배출량이 높은 리전에서 스토리지 버킷 생성을 제한합니다. 리전의 CFE 및 탄소 집약도 데이터에 대한 자세한 내용은 Google Cloud 리전의 무탄소 에너지를 Google Cloud 참조하세요.

복제 최소화

필수 재해 복구 (DR) 또는 고가용성 (HA) 요구사항을 충족하기 위해서만 리전 간에 데이터를 복제합니다. 리전 간 및 멀티 리전 복제 작업은 데이터의 에너지 비용과 탄소 발자국을 크게 증가시킵니다.

데이터 처리 위치 최적화

네트워크 데이터 전송의 에너지 소비를 줄이려면 AI 학습 및 BigQuery 처리와 같은 컴퓨팅 집약적인 워크로드를 데이터 소스와 동일한 리전에 배포합니다.

파트너 및 고객을 위한 데이터 이동 최적화

클라우드 서비스, 위치, 제공업체 간에 대용량 데이터를 이동하려면 파트너와 고객에게 Storage Transfer Service 또는 데이터 공유 API를 사용하도록 권장합니다. 대량 데이터 덤프를 방지합니다. 공개 데이터 세트의 경우 요청자 지불 버킷을 사용하여 데이터 전송 및 처리 비용과 환경 영향을 최종 사용자에게 이전합니다.