지속 가능성을 위해 데이터 및 스토리지 최적화

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework의 지속 가능성 부문에서 이 원칙을 따르면 Google Cloud의 스토리지 리소스에 대한 에너지 효율성과 탄소 발자국을 최적화하는 데 도움이 되는 권장사항을 확인할 수 있습니다.

원칙 개요

저장된 데이터는 수동적인 리소스가 아닙니다. 데이터의 수명 주기 전반에 걸쳐 에너지가 소비되고 탄소 배출이 발생합니다. 저장된 데이터 1GB마다 지속적으로 전원이 공급되고 냉각되며 관리되는 물리적 인프라가 필요합니다. 지속 가능한 클라우드 아키텍처를 구현하려면 데이터를 가치 있지만 환경적으로 비용이 많이 드는 애셋으로 취급하고 사전 데이터 거버넌스를 우선시해야 합니다.

데이터 보관, 품질, 위치에 관한 결정을 통해 클라우드 비용과 에너지 소비를 크게 줄일 수 있습니다. 저장하는 데이터를 최소화하고, 데이터를 저장하는 위치와 방법을 최적화하고, 자동 삭제 및 보관 전략을 구현합니다. 데이터 클러터를 줄이면 시스템 성능이 향상되고 데이터의 장기적인 환경 발자국이 근본적으로 줄어듭니다.

권장사항

지속 가능성을 위해 데이터 수명 주기와 스토리지 리소스를 최적화하려면 다음 섹션의 권장사항을 고려하세요.

가치가 높은 데이터에 우선순위 지정

사용하지 않거나 중복되거나 오래된 저장 데이터는 기본 인프라에 전원을 공급하기 위해 계속 에너지를 소비합니다. 스토리지 관련 탄소 발자국을 줄이려면 다음 기법을 사용하세요.

중복 식별 및 제거

여러 Google Cloud 프로젝트 또는 서비스 간에 데이터 세트가 불필요하게 복제되지 않도록 정책을 설정합니다. BigQuery 데이터 세트 또는 Cloud Storage 버킷과 같은 중앙 데이터 저장소를 단일 정보 소스로 사용하고 이러한 저장소에 적절한 액세스 권한을 부여합니다.

섀도우 데이터 및 다크 데이터 삭제

다크 데이터는 유용성 또는 소유자를 알 수 없는 데이터입니다. 섀도우 데이터는 데이터의 무단 복사본을 의미합니다. Dataplex Universal Catalog과 같은 데이터 탐색 및 카탈로그 솔루션을 사용하여 스토리지 시스템을 스캔하고 다크 데이터와 섀도우 데이터를 찾습니다. 이러한 결과를 정기적으로 감사하고 필요에 따라 다크 데이터 및 섀도우 데이터를 보관처리하거나 삭제하는 프로세스를 구현합니다.

AI 워크로드의 데이터 볼륨 최소화

모델 학습 및 제공에 필요한 특성과 처리된 데이터만 저장합니다. 가능한 경우 데이터 샘플링, 집계, 합성 데이터 생성과 같은 기법을 사용하여 대규모 원시 데이터 세트에 의존하지 않고 모델 성능을 달성하세요.

데이터 품질 검사 통합

데이터 수집 시점에 Dataproc, Dataflow 또는 Dataplex Universal Catalog과 같은 서비스를 사용하여 자동 데이터 검증 및 데이터 정리 파이프라인을 구현합니다. 품질이 낮은 데이터는 저장공간을 낭비합니다. 또한 나중에 분석이나 AI 학습에 데이터를 사용할 때 불필요한 에너지 소비가 발생합니다.

데이터의 값 밀도 검토

로그 및 IoT 스트림과 같은 대량 데이터 세트를 주기적으로 검토합니다. 필요한 정보 밀도를 유지하고 실제 스토리지 볼륨을 줄이기 위해 데이터를 요약하거나 집계하거나 다운샘플링할 수 있는지 확인합니다.

백업 필요성 비판적으로 평가하기

최소한의 노력으로 재생할 수 있는 데이터의 백업 필요성을 평가합니다. 이러한 데이터의 예로는 중간 ETL 결과, 일시적인 캐시, 안정적인 영구 소스에서 파생된 학습 데이터가 있습니다. 고유하거나 다시 만드는 데 비용이 많이 드는 데이터만 백업을 유지합니다.

스토리지 수명 주기 관리 최적화

데이터의 유용성이 감소하면 데이터가 에너지 효율적인 스토리지 클래스로 이동되거나 적절한 경우 폐기되도록 스토리지 수명 주기를 자동화합니다. 다음 기법을 사용하세요.

적절한 Cloud Storage 클래스 선택

객체 수명 주기 관리를 사용하여 액세스 빈도에 따라 Cloud Storage의 데이터를 탄소 배출량이 적은 스토리지 클래스로 전환하는 작업을 자동화합니다.

  • 현재 프로덕션 모델과 같이 활발하게 사용되는 데이터 세트에만 Standard 스토리지를 사용하세요.
  • 오래된 AI 학습 데이터 세트나 자주 액세스하지 않는 백업과 같은 데이터를 Nearline 또는 Coldline Storage로 전환합니다.
  • 장기 보관의 경우 대규모 에너지 효율에 최적화된 Archive Storage를 사용하세요.

공격적인 데이터 수명 주기 정책 구현

로그 파일, 임시 모델 아티팩트, 오래된 중간 결과와 같은 중요하지 않은 데이터에 대해 명확하고 자동화된 TTL (수명) 정책을 정의합니다. 수명 주기 규칙을 사용하여 정의된 기간이 지난 후 이러한 데이터를 자동으로 삭제합니다.

리소스 태그 지정 의무화

모든 Cloud Storage 버킷, BigQuery 데이터 세트, 영구 디스크에 일관된 리소스 태그와 라벨을 사용하도록 합니다. 데이터 소유자, 데이터의 목적, 보관 기간을 나타내는 태그를 만듭니다. 조직 정책 서비스 제약 조건을 사용하여 보관 기간과 같은 필수 태그가 리소스에 적용되도록 합니다. 태그를 사용하면 수명 주기 관리를 자동화하고, 세부적인 FinOps 보고서를 만들고, 탄소 배출량 보고서를 생성할 수 있습니다.

컴퓨팅 스토리지의 크기를 적절하게 조정하고 프로비저닝 해제

Compute Engine 인스턴스에 연결된 영구 디스크를 정기적으로 감사하고 디스크가 과도하게 프로비저닝되지 않았는지 확인합니다. 스냅샷은 백업에 필요한 경우에만 사용합니다. 사용하지 않는 이전 스냅샷을 삭제합니다. 데이터베이스의 경우 데이터 보관 정책을 사용하여 기본 영구 디스크의 크기를 줄입니다.

스토리지 형식 최적화

분석 워크로드를 제공하는 스토리지의 경우 JSON 또는 CSV와 같은 행 기반 형식보다 Parquet 또는 최적화된 Avro와 같은 압축된 열 형식으로 저장하는 것이 좋습니다. 열 형식 스토리지는 실제 디스크 공간 요구사항을 크게 줄이고 읽기 효율성을 개선합니다. 이 최적화는 연결된 컴퓨팅 및 I/O 작업의 에너지 소비를 줄이는 데 도움이 됩니다.

지역성 및 데이터 이동 최적화

데이터의 물리적 위치와 이동은 네트워크 리소스 소비와 저장에 필요한 에너지에 영향을 미칩니다. 다음 기법을 사용하여 데이터 리전성을 최적화하세요.

탄소 배출량이 적은 스토리지 리전 선택

규정 준수 요구사항에 따라 무탄소 에너지 (CFE) 비율이 높거나 전력망 탄소 집약도가 낮은 Google Cloud 리전 에 데이터를 저장합니다. 리소스 위치 조직 정책 제약조건을 사용하여 탄소 배출량이 많은 지역에서 스토리지 버킷 생성을 제한합니다. Google Cloud 리전의 CFE 및 탄소 집약도 데이터에 대한 자세한 내용은 Google Cloud 리전의 무탄소 에너지를 참고하세요.

복제 최소화

필수 재해 복구 (DR) 또는 고가용성 (HA) 요구사항을 충족하기 위해서만 리전 간에 데이터를 복제합니다. 리전 간 및 멀티 리전 복제 작업은 데이터의 에너지 비용과 탄소 발자국을 크게 증가시킵니다.

데이터 처리 위치 최적화

네트워크 데이터 전송의 에너지 소비를 줄이려면 데이터 소스와 동일한 리전에 AI 학습 및 BigQuery 처리와 같은 컴퓨팅 집약적 워크로드를 배포하세요.

파트너 및 고객을 위한 데이터 이동 최적화

클라우드 서비스, 위치, 제공업체 간에 대량의 데이터를 이동하려면 파트너와 고객에게 Storage Transfer Service 또는 데이터 공유 API를 사용하도록 권장하세요. 대량 데이터 덤프를 피하세요. 공개 데이터 세트의 경우 요청자 지불 버킷을 사용하여 데이터 전송 및 처리 비용과 환경 영향을 최종 사용자에게 전가합니다.