에너지 효율성을 위해 AI 및 ML 워크로드 최적화

Last reviewed 2026-01-28 UTC

Google Cloud Well-Architected Framework의 지속 가능성 요소 원칙은 AI 및 ML 워크로드를 최적화하여 에너지 사용량과 탄소 발자국을 줄이기 위한 권장사항을 제공합니다.

원칙 개요

지속 가능성을 위해 AI 및 ML 워크로드를 최적화하려면 워크로드를 설계, 배포, 운영하는 데 전체적인 접근 방식을 채택해야 합니다. 적절한 모델과 Tensor Processing Unit (TPU)과 같은 전문 하드웨어를 선택하고, 탄소 배출량이 적은 지역에서 워크로드를 실행하고, 리소스 사용량을 줄이도록 최적화하고, 운영 권장사항을 적용하세요.

AI 및 ML 워크로드의 비용과 성능을 최적화하는 아키텍처 및 운영 관행은 본질적으로 에너지 소비를 줄이고 탄소 발자국을 낮춥니다. Well-Architected Framework의 AI 및 ML 관점에서는 운영, 보안, 안정성, 비용, 성능 목표를 충족하는 AI 및 ML 워크로드를 설계, 빌드, 관리하기 위한 원칙과 권장사항을 설명합니다. 또한 클라우드 아키텍처 센터에서는 Google Cloud의 AI 및 ML 워크로드에 대한 자세한 참조 아키텍처와 설계 가이드를 제공합니다.

권장사항

에너지 효율성을 위해 AI 및 ML 워크로드를 최적화하려면 다음 섹션의 권장사항을 고려하세요.

TPU를 사용하여 에너지 효율성을 위한 아키텍처 설계

AI 및 ML 워크로드는 컴퓨팅 집약적일 수 있습니다. AI 및 ML 워크로드의 에너지 소비는 지속 가능성을 위한 중요한 고려사항입니다. TPU를 사용하면 AI 및 ML 워크로드의 에너지 효율성과 지속 가능성을 크게 개선할 수 있습니다.

TPU는 AI 및 ML 워크로드를 위해 특수 제작된 맞춤 설계 가속기입니다. TPU의 전문화된 아키텍처는 딥 러닝의 기반인 대규모 행렬 곱셈에 매우 효과적입니다. TPU는 CPU나 GPU와 같은 범용 프로세서보다 더 효율적으로 복잡한 작업을 대규모로 실행할 수 있습니다.

TPU는 지속 가능성을 위해 다음과 같은 직접적인 이점을 제공합니다.

낮은 에너지 소비량: TPU는 최적의 에너지 효율성을 위해 설계되었습니다. 에너지 소비량 대비 더 높은 컴퓨팅을 제공합니다. 이러한 특수 아키텍처는 대규모 학습 및 추론 작업의 전력 요구량을 크게 줄여 운영 비용을 절감하고 에너지 소비를 낮춥니다.
더 빠른 학습 및 추론: TPU의 뛰어난 성능을 통해 복잡한 AI 모델을 며칠이 아닌 몇 시간 만에 학습시킬 수 있습니다. 총 컴퓨팅 시간이 크게 단축되면 환경에 미치는 영향이 직접적으로 줄어듭니다.
냉각 요구사항 감소: TPU에는 고급 액체 냉각이 통합되어 있어 효율적인 열 관리를 제공하고 데이터 센터 냉각에 사용되는 에너지를 크게 줄입니다.
AI 수명 주기 최적화: 하드웨어와 소프트웨어를 통합하여 TPU는 데이터 처리부터 모델 제공에 이르기까지 전체 AI 수명 주기에서 최적화된 솔루션을 제공합니다.

리소스 선택을 위한 4Ms 권장사항 따르기

Google에서는 AI 및 ML 워크로드의 에너지 사용량과 탄소 배출량을 크게 줄이기 위한 권장사항을 제시합니다. 이러한 권장사항을 4M이라고 합니다.

모델: 효율적인 ML 모델 아키텍처를 선택합니다. 예를 들어 희소 모델은 밀도 모델에 비해 ML 품질을 개선하고 컴퓨팅을 3~10배 줄입니다.
머신: ML 학습에 최적화된 프로세서와 시스템을 선택합니다. 이러한 프로세서는 범용 프로세서에 비해 성능과 에너지 효율을 2~5배 향상합니다.
자동화: 컴퓨팅 집약적인 워크로드를 클라우드에 배포합니다. 워크로드는 온프레미스 배포에 비해 에너지를 적게 사용하고 배출량을 1.4~2배 줄입니다. 클라우드 데이터 센터는 에너지 효율성을 위해 설계되고 전력 사용 효율 (PUE) 비율이 높은 최신 맞춤형 웨어하우스를 사용합니다. 온프레미스 데이터 센터는 오래되고 규모가 작기 때문에 에너지 효율이 높은 냉각 및 전력 분배 시스템에 투자하는 것이 경제적이지 않을 수 있습니다.
지도: 가장 깨끗한 에너지를 사용하는 Google Cloud 위치를 선택합니다. 이 접근 방식을 사용하면 워크로드의 총 탄소 발자국을 5~10배 줄일 수 있습니다. 자세한 내용은 Google Cloud 리전의 무탄소 에너지를 참고하세요.

4Ms 권장사항 및 효율성 측정항목에 대한 자세한 내용은 다음 연구 논문을 참고하세요.

학습 및 추론을 위해 AI 모델과 알고리즘 최적화

AI 모델의 아키텍처와 학습 및 추론에 사용되는 알고리즘은 에너지 소비에 큰 영향을 미칩니다. 다음 권장사항을 고려하세요.

효율적인 AI 모델 선택

성능 요구사항을 충족하는 더 작고 효율적인 AI 모델을 선택하세요. 사용 가능한 가장 큰 모델을 기본 선택으로 선택하지 마세요. 예를 들어 DistilBERT와 같은 더 작은 정제된 모델 버전은 BERT와 같은 더 큰 모델보다 컴퓨팅 오버헤드가 훨씬 적고 추론 속도가 빠르면서도 비슷한 성능을 제공할 수 있습니다.

도메인별 초효율적인 솔루션 사용

성능이 더 우수하고 대규모 기본 모델보다 컴퓨팅 성능이 훨씬 적게 필요한 전문 ML 솔루션을 선택하세요. 이러한 전문 솔루션은 사전 학습되고 하이퍼 최적화되는 경우가 많습니다. 학습 및 추론 워크로드 모두에서 에너지 소비량과 연구 노력을 크게 줄일 수 있습니다. 다음은 도메인별 전문 솔루션의 예입니다.

Earth AI는 대량의 전 세계 지리 공간 데이터를 합성하여 시기적절하고 정확하며 실행 가능한 통계를 제공하는 에너지 효율적인 솔루션입니다.
WeatherNext는 기존의 물리 기반 방법과 비교할 때 더 빠르고 효율적이며 매우 정확한 글로벌 날씨 예측을 생성합니다.

적절한 모델 압축 기법 적용

다음은 모델 압축에 사용할 수 있는 기법의 예시입니다.

가지치기: 신경망에서 불필요한 매개변수를 삭제합니다. 모델의 성능에 크게 기여하지 않는 파라미터입니다. 이 기법은 모델의 크기와 추론에 필요한 컴퓨팅 리소스를 줄입니다.
양자화: 모델 매개변수의 정밀도를 줄입니다. 예를 들어 정밀도를 32비트 부동 소수점에서 8비트 정수로 줄입니다. 이 기법은 정확도를 눈에 띄게 줄이지 않고 메모리 사용 공간과 전력 소비를 크게 줄이는 데 도움이 될 수 있습니다.
지식 증류: 더 크고 복잡한 교사 모델의 동작을 모방하도록 더 작은 학생 모델을 학습시킵니다. 학생 모델은 더 적은 매개변수와 더 적은 에너지를 사용하여 높은 수준의 성능을 달성할 수 있습니다.

전문 하드웨어 사용

리소스 선택을 위한 4M 권장사항 따르기에 설명된 대로 ML 학습에 최적화된 프로세서와 시스템을 선택합니다. 이러한 프로세서는 범용 프로세서에 비해 성능과 에너지 효율을 2~5배 향상합니다.

Parameter-Efficient Fine-Tuning(PEFT) 사용

모델의 수십억 개에 달하는 모든 파라미터를 조정하는 대신 (전체 미세 조정) LoRA (Low-Rank Adaptation)와 같은 파라미터 효율적 미세 조정 (PEFT) 방법을 사용하세요. 이 기법을 사용하면 원래 모델의 가중치를 고정하고 가벼운 새로운 레이어만 소수 학습합니다. 이 접근 방식은 비용과 에너지 소비량을 줄이는 데 도움이 됩니다.

AI 및 ML 운영 권장사항 준수

운영 관행은 AI 및 ML 워크로드의 지속 가능성에 큰 영향을 미칩니다. 다음 권장사항을 고려하세요.

모델 학습 프로세스 최적화

다음 기법을 사용하여 모델 학습 프로세스를 최적화하세요.

조기 중단: 학습 프로세스를 모니터링하고 검증 세트에 대한 모델 성능이 더 이상 개선되지 않으면 중지합니다. 이 기법을 사용하면 불필요한 계산과 에너지 사용을 방지할 수 있습니다.
효율적인 데이터 로드: 효율적인 데이터 파이프라인을 사용하여 GPU와 TPU가 항상 활용되고 데이터가 대기하지 않도록 합니다. 이 기술은 리소스 사용률을 극대화하고 에너지 낭비를 줄이는 데 도움이 됩니다.
최적화된 하이퍼파라미터 조정: 최적의 하이퍼파라미터를 더 효율적으로 찾으려면 베이즈 최적화 또는 강화 학습과 같은 기법을 사용하세요. 리소스 집약적인 작업이 될 수 있는 철저한 그리드 검색을 피하세요.

추론 효율성 개선

AI 추론 작업의 효율성을 개선하려면 다음 기법을 사용하세요.

일괄 처리: 여러 추론 요청을 일괄 처리로 그룹화하고 GPU 및 TPU에서 병렬 처리를 활용합니다. 이 기법은 예측당 에너지 비용을 줄이는 데 도움이 됩니다.
고급 캐싱: 자동 회귀 생성용 키-값 (KV) 캐싱과 애플리케이션 응답용 시맨틱 프롬프트 캐싱을 포함하는 다층 캐싱 전략을 구현합니다. 이 기법은 중복 모델 계산을 우회하는 데 도움이 되며 에너지 사용량과 탄소 배출량을 크게 줄일 수 있습니다.

측정 및 모니터링

다음 매개변수를 모니터링하고 측정합니다.

사용량 및 비용: 적절한 도구를 사용하여 AI 워크로드의 토큰 사용량, 에너지 소비량, 탄소 발자국을 추적합니다. 이 데이터를 통해 최적화 기회를 파악하고 지속 가능성 목표 달성 상황을 보고할 수 있습니다.
성능: 프로덕션 환경에서 모델 성능을 지속적으로 모니터링합니다. 모델을 다시 미세 조정해야 할 수 있는 데이터 드리프트와 같은 문제를 식별합니다. 모델을 재학습해야 하는 경우 원래 미세 조정된 모델을 시작점으로 사용하여 업데이트에 드는 시간, 비용, 에너지를 크게 절약할 수 있습니다.
- 성능 측정항목을 추적하려면 Cloud Monitoring을 사용하세요.
- 모델 변경사항과 성능 측정항목 개선사항을 연관시키려면 이벤트 주석을 사용하세요.

지속적인 개선을 운영하는 방법에 관한 자세한 내용은 지속 가능성을 지속적으로 측정하고 개선하기를 참고하세요.

탄소 인식 스케줄링 구현

가장 깨끗한 에너지 믹스를 갖춘 지역에서 실행되도록 ML 파이프라인 작업을 설계하세요. 탄소 발자국 보고서를 사용하여 탄소 집약도가 가장 낮은 리전을 파악합니다. 지역 전력 그리드의 무탄소 에너지 (CFE) 비율이 높은 기간에 리소스 집약적인 작업을 일괄 작업으로 예약합니다.

데이터 파이프라인 최적화

ML 작업과 미세 조정에는 정제된 고품질 데이터 세트가 필요합니다. ML 작업을 시작하기 전에 관리형 데이터 처리 서비스를 사용하여 데이터를 효율적으로 준비하세요. 예를 들어 스트리밍 및 일괄 처리에는 Dataflow를 사용하고 관리형 Spark 및 Hadoop 파이프라인에는 Dataproc를 사용합니다. 최적화된 데이터 파이프라인을 사용하면 미세 조정 워크로드가 데이터를 기다리지 않으므로 리소스 사용률을 극대화하고 에너지 낭비를 줄일 수 있습니다.

MLOps 도입

전체 ML 수명 주기를 자동화하고 관리하려면 MLOps (머신러닝 운영) 방식을 구현하세요. 이러한 관행은 모델이 지속적으로 모니터링되고, 검증되고, 효율적으로 재배포되도록 지원하여 불필요한 학습이나 리소스 할당을 방지하는 데 도움이 됩니다.

관리형 서비스 사용

자체 인프라를 관리하는 대신 Vertex AI와 같은 관리형 클라우드 서비스를 사용하세요. 클라우드 플랫폼에서 기본 리소스 관리를 처리하므로 미세 조정 프로세스에 집중할 수 있습니다. 초매개변수 조정, 모델 모니터링, 리소스 관리를 위한 기본 제공 도구가 포함된 서비스를 사용합니다.

다음 단계

저탄소 리전 사용

리소스 사용량 최적화

에너지 효율성을 위해 AI 및 ML 워크로드 최적화 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.