Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI 가속기 성능 및 벤치마킹

대규모 언어 모델 (LLM)을 기본 워크로드로 사용하는 AI 하드웨어를 평가하려면 일관되고 공급업체 중립적인 접근 방식이 필요합니다. 이 가이드에서는 NVIDIA, AMD, Google, AWS와 같은 다양한 공급업체의 AI 가속기 칩 성능을 비교하는 방법을 설명합니다. 원칙과 방법론은 모든 AI 칩이나 워크로드에 적용할 수 있지만, 예시에서는 LLM 워크로드를 실행하는 NVIDIA 그래픽 처리 장치 (GPU)와 Google Tensor Processing Unit (TPU)의 일반적인 업계 페어링에 중점을 둡니다.

모델은 일반적으로 특정 하드웨어 플랫폼에 최적화되어 있으므로 모델 성능만 평가해서는 하드웨어의 기능을 이해하기에 충분하지 않습니다. LLM용 가속기 칩을 평가할 때는 학습과 추론 모두에 대해 마이크로벤치마킹, 루프라인 분석, 모델 벤치마킹이라는 세 가지 주요 측면을 고려하세요.

마이크로벤치마킹과 루프라인 분석은 특정 가속기 플랫폼의 기능과 잠재력을 이해하는 데 필수적입니다. 이 정보를 알게 되면 학습 및 추론 전반의 모델 벤치마킹을 통해 칩 간의 실제 워크로드 비교와 모델 아키텍처가 특정 플랫폼에 최적화되었는지에 관한 통계를 얻을 수 있습니다.

실적 측정기준

평가자는 특정 액셀러레이터 시스템을 더 전체적으로 이해하기 위해 세 가지 차원에서 성능을 고려하는 것이 좋습니다.

마이크로벤치마킹: 하드웨어 사양이 가장 높다고 해서 애플리케이션이 실제로 이러한 사양을 활용할 수 있는 것은 아닙니다. 마이크로벤치마킹을 사용하여 초당 부동 소수점 연산(FLOPS), 고대역폭 메모리 (HBM), 네트워킹 대역폭이 실제 워크로드에서 달성 가능한 항목에 미치는 영향을 평가할 수 있습니다.
루프라인 분석: 메모리 대역폭 또는 계산 속도로 인해 최적의 하드웨어 활용이 방해될 수 있습니다. 루프라인 모델과 다양한 시스템 구성요소의 작동 강도 (OI)를 사용하여 하드웨어와 워크로드가 서로 얼마나 적합한지 확인할 수 있습니다. 마이크로벤치마크와 루프라인을 조합하면 선택한 하드웨어가 다양한 유형의 워크로드에서 달성할 수 있는 이론적 평가를 제공합니다.
모델 벤치마킹: 학습 및 추론 워크로드 전반에서 벤치마킹하여 칩당 초당 토큰 수 (TPS/칩)를 측정하면 다양한 플랫폼에서 동일한 모델을 평가할 수 있습니다. 초기 결과가 마이크로벤치마킹 및 루프라인 분석과 다른 경우 이전에 식별된 루프라인을 달성하기 위해 추가 소프트웨어 작업이 필요하다는 의미입니다. 예를 들어 샤딩 전략을 변경하거나 맞춤 커널을 사용하는 작업이 포함될 수 있습니다.

모델 벤치마킹은 특정 모델, 규모, 플랫폼에 대한 특정 시점의 스냅샷 접근 방식입니다. 숙련된 사용자는 성능을 평가할 때 모델 아키텍처와 같은 업계 동향, 마이크로벤치마킹, 루프라인 결과도 고려합니다.

모델 및 하드웨어 공동 설계

성능 평가에서는 테스트 중인 하드웨어의 컨텍스트에서 모델 아키텍처를 신중하게 고려해야 합니다. 효율적으로 설계된 모델은 특정 플랫폼의 미묘한 차이를 활용하기 위해 특정 하드웨어 플랫폼에 맞게 공동 설계되는 경우가 많습니다. 따라서 이러한 모델은 다른 플랫폼이나 동일한 플랫폼의 다른 세대를 완전히 활용하지 못할 수 있습니다. 예를 들어 NVIDIA Hopper GPU용으로 설계된 모델은 AMD GPU 또는 NVIDIA Blackwell GPU를 완전히 활용하지 못할 수 있습니다.

이 고려사항은 기능이 다를 수 있는 하드웨어 플랫폼 간에 이동할 때 특히 중요합니다. 한 플랫폼용으로 설계된 모델은 다른 플랫폼에서 최고 성능을 달성하기 위해 구성 변경, 소프트웨어 변경 또는 둘 다 필요할 수 있기 때문입니다. 최적화된 모델의 벤치마킹은 '최고 이론적' 성능에 대한 공급업체 마케팅 주장을 검증하고 실제 결과를 측정하는 데 필수적입니다. 독립 분석 회사인 SemiAnalysis는 '이론적 FLOPS를 비교하는 것은 일부만 보여줍니다. 실제 워크로드에서는 최대 수치에 도달하는 경우가 거의 없으므로 중요한 것은 유효 FLOPS입니다.'

예: `gpt-oss-120B` 챌린지

벤치마킹의 일반적인 함정은 모델이 설계되지 않은 하드웨어에서 모델을 평가하는 것입니다. OpenAI의 gpt-oss-120B 개방형 가중치 모델은 모델 아키텍처가 타겟 실리콘에 긴밀하게 매핑되어야 하는 이유를 보여주는 예입니다. 다음 예에서는 모델 공동 설계가 중요하며 프로세스 초기에 이루어져야 함을 보여줍니다.

gpt-oss-120B 모델은 어텐션 헤드 차원 64를 사용합니다. 이는 GPU 최적화 모델에서는 표준이지만 TPU 가속기에서는 아키텍처 불일치가 발생합니다. Trillium 및 Ironwood와 같은 TPU는 행렬 곱셈 단위 (MXU)를 완전히 포화시키기 위해 256의 배수인 행렬 크기에 최적화되어 있습니다. 헤드 차원 64가 TPU에 최적화되어 있지 않으므로 TPU 시스템에서 gpt-oss-120B를 실행하면 초당 토큰 수 (TPS)와 모델 FLOPS 사용률 (MFU)이 낮아집니다. 하드웨어는 256x256 실행 그리드에 맞추기 위해 나머지 공간을 0으로 채워 클럭 사이클과 전력을 효과적으로 낭비합니다.

gpt-oss-120B를 TPU의 벤치마크로 사용하면 실제로는 소프트웨어 아키텍처 불일치를 반영하는데 하드웨어 기능이 좋지 않다고 잘못 신호할 수 있습니다. 액셀러레이터의 '상한'을 정확하게 평가하려면 특정 도형을 위해 공동 설계된 모델로 테스트하세요. 예를 들어 Gemma 4와 같이 헤드 차원이 128 또는 256인 모델이 있습니다. 0 패딩을 피하고 대신 MXU를 '채우는' 맞춤 커널을 사용하면 이 모델의 성능을 개선할 수 있습니다. 이는 전문 지식이 필요하며 GPU와 동일한 수준의 성능을 달성하지는 않습니다. 헤드 크기를 변경하여 TPU에 더 최적화할 수도 있지만 이렇게 하면 기존 모델 가중치가 무효화되어 재학습이 필요합니다.

벤치마킹 원칙

공정하고 미래 지향적인 평가를 제공하려면 가속기 전반에서 벤치마킹할 때 다음 원칙을 고려하세요.

달러당 성능에 집중: 일부 공급업체는 단일 칩 원시 성능에 집중하지만 달러당 시스템 수준 성능이 전반적인 총소유비용 (TCO)과 가치를 더 잘 나타냅니다. 칩 A가 칩 B보다 성능이 20% 더 우수하고 비용이 50% 더 비싸다면 평가자는 칩 B의 달러당 성능 이점을 인식해야 합니다. 와트당 성능도 비용의 일부로 고려하세요.
최신 AI 워크로드 표현: 업계 동향을 고려하면서 인기 있는 트랜스포머 기반 모델, 대규모 클러스터, 최신 프레임워크에 집중합니다. 예를 들어 업계에서 더 희소한 전문가 조합(MoE) 모델로 전환함에 따라 FLOPS를 완전히 최적화하기가 더 어려워지고 네트워크에서 더 높은 이등분 대역폭이 요구됩니다.
개발자 요구사항에 대한 광범위한 지원 보장: 다양한 워크로드(다양한 LLM 및 기타 모델에 걸친 학습, 미세 조정, 서빙) 전반의 성능, 유연성, 확장성을 고려합니다.
공급업체에 구애받지 않는 모델 및 도구 선택: 가속기 전반에서 실행되는 모델과 엔진을 선택하여 교차 가속기 평가를 더 쉽게 만드세요. 예를 들어 Qwen, Gemma와 같은 개방형 모델과 GPU 및 TPU에서 실행되는 오픈소스 추론 엔진(예: vLLM)을 사용합니다. 하드웨어별 PyTorch/CUDA 스택을 피하세요. 모델 학습 벤치마킹의 경우 모델이 플랫폼 전반에서 일정하게 유지될 때 공급업체별 프레임워크 (예: TPU의 경우 MaxText, GPU의 경우 Megatron)가 가장 유용합니다.
모델 공동 설계: 숙련된 사용자가 하드웨어 플랫폼을 최대한 활용하기 위해 모델을 공동 설계합니다. 칩 A에서 학습된 모델이 칩 B에서 '기본' 성능이 좋을 것으로 기대하지 마세요.
전체 하드웨어 시스템 고려: 일부 가속기는 FLOPS와 같은 한 영역에서 높은 성능을 광고할 수 있습니다. 하지만 메모리 대역폭과 같은 다른 영역의 병목 현상으로 인해 액셀러레이터의 기능이 크게 제한될 수 있습니다. 고려해야 할 시스템의 다른 측면은 칩 사양, 칩 네트워킹, 스케일 아웃 아키텍처입니다.
하드웨어 및 소프트웨어 안정성: 대규모 학습 또는 중요한 추론 작업 중에 중단이 발생하면 비용이 매우 많이 들 수 있습니다. 마찬가지로 AI 가속기는 가속기에서 실행되는 소프트웨어만큼만 유용합니다. 가치를 극대화하려면 규모에 맞게 검증된 성숙하고 안정적인 소프트웨어 스택이 필수적입니다.

Microbenchmark

액셀러레이터 벤치마킹의 맥락에서 마이크로벤치마킹은 복잡한 소프트웨어 스택의 간섭 없이 절대 한계를 측정하기 위해 컴퓨팅 코어, 메모리, 인터커넥트와 같은 특정 하드웨어 구성요소를 격리합니다. 많은 공급업체에서 '단일 칩 최대 FLOPS'를 강조하지만 실제 AI는 분산 시스템 문제입니다. 마이크로벤치마킹을 통해 칩이 단순히 강력한지 아니면 데이터 센터 규모에 맞게 설계되었는지 파악할 수 있습니다.

마이크로벤치마킹을 사용하여 하드웨어의 최대 성능을 측정하고 모델 아키텍처와 관계없이 시스템의 실제 제한사항을 알아봅니다. 마이크로벤치마킹은 미래 또는 미정의 사용 사례 및 모델 아키텍처에 대해 액셀러레이터를 평가할 때 특히 유용합니다.

효과적으로 가속기를 마이크로벤치마킹하려면 다음을 평가하세요.

벤치마킹	설명
밀도 높은 일반 행렬 곱셈 (GEMM) 사용률	다양한 정밀도에서 고도로 최적화된 GEMM 커널을 실행하여 액셀러레이터의 코어 컴퓨팅 단위의 원시적이고 지속적인 수학적 성능을 측정합니다.
고대역폭 메모리 (HBM) 스트리밍	메모리 대역폭 마이크로벤치마크를 실행하여 가속기의 온보드 메모리의 지속적인 읽기, 쓰기, 복사 속도를 측정합니다. 바이트 대 FLOP 비율을 적절하게 유지하는 아키텍처는 컴퓨팅 코어가 유휴 상태가 되지 않도록 합니다.
분산 집단 (all-reduce 및 all-gather)	수천 개의 칩에서 표준화된 집단 통신 테스트를 실행하여 클러스터가 확장될 때 네트워크 대역폭과 지연 시간이 얼마나 심각하게 저하되는지 측정합니다.
호스트-기기 (H2D) 및 기기-호스트 (D2H) 전송 속도	호스트 CPU의 시스템 메모리와 가속기 간에 연속적인 대량의 데이터 스트림을 푸시하여 PCIe 버스 또는 맞춤 상호 연결을 통한 전송률을 측정합니다.
지속적인 열 제한 및 전력 소모	랙 수준 전력 소비를 모니터링하면서 최대 활용률 GEMM 루프를 48시간 동안 연속으로 실행하여 지속적인 열 안정성과 실제 전력 효율성을 평가합니다.

마이크로벤치마크 비교 예

다음은 두 칩을 설명하기 위해 비교한 것으로, 가상의 칩 A가 가상의 칩 B보다 나은 것처럼 보이지만 실제로는 성능이 더 나쁠 수 있습니다.

벤치마크 이름	칩 A 테스트 결과	칩 A 사양	테스트 / 사양 비율	칩 B 테스트 결과	칩 B 사양	테스트 / 사양 비율
칩 간 네트워킹	800GBps	1,000 GBps	80.0%	850 GBps	900 GBps	94.4%
gemm/peakTOPS	1,800 TFLOPS	2,500 TFLOPS	72.0%	1,800 TFLOPS	2,000 TFLOPS	90.0%
메모리 대역폭	6,000 GBps	8,000 GBps	75.0%	6,500 GBps	7,500 GBps	86.7%
호스트-기기	58GBps/칩	70GBps/칩	82.9%	60GBps/칩	65GBps/칩	92.3%
기기-호스트	55GBps/칩	70GBps/칩	78.6%	55GBps/칩	65GBps/칩	84.6%

지붕선 분석

루프라인 분석 (또는 루프라인 모델)을 사용하면 다양한 시스템 구성요소의 운영 강도(OI)와 특정 설계가 특정 플랫폼에 얼마나 적합한지 분석할 수 있는 시각화를 제공받을 수 있습니다.

AI 액셀러레이터 칩의 처리량은 다음 세 가지 기본 요소에 의해 제한됩니다.

컴퓨팅 용량: 칩의 최대 수학적 처리량 (FLOPS)입니다.
메모리 대역폭: 칩의 로컬 고대역폭 메모리 (HBM)로 또는 HBM에서 데이터를 전송할 수 있는 속도입니다.
네트워크 대역폭: 분산 학습 또는 추론 중에 칩 네트워킹을 사용하여 여러 칩 간에 데이터를 공유할 수 있는 속도입니다. 예를 들어 ICI (TPU용) 또는 NVLink (GPU용)의 전송 속도입니다.

지붕선에 대한 자세한 내용은 지붕선에 관한 모든 것을 참고하세요.

표준 루프라인 플롯은 다음 두 축으로 구성됩니다.

X축 (작동 강도): 작동 강도는 컴퓨팅 작업 (FLOPS)과 메모리 트래픽 (전송된 바이트)의 비율로, 바이트당 FLOPS로 표현됩니다. 메모리에서 가져온 데이터의 모든 바이트에 대해 실행된 컴퓨팅 작업의 양을 나타냅니다.
Y축 (달성 가능한 성능): 달성 가능한 성능은 초당 FLOPS로 표시됩니다. 실제로 달성된 컴퓨팅 처리량을 나타냅니다.

메모리 대역폭과 컴퓨팅 용량에 의해 하드웨어 최대 성능이 제한되는 방식을 보여주는 루프라인 모델 그래프

'지붕'은 하드웨어 최대값을 나타내는 두 개의 교차하는 선으로 구성됩니다.

기울어진 지붕 (메모리 바운드): 달성 가능한 성능 = 최대 메모리 대역폭 × 작업 강도 이 라인에서는 컴퓨팅 단위에 데이터를 얼마나 빠르게 공급할 수 있는지에 따라 성능이 엄격하게 제한됩니다.
평평한 지붕 (컴퓨팅 바운드): 달성 가능한 성능 = 최대 컴퓨팅 용량 이 라인에서는 컴퓨팅 단위가 최대 용량으로 실행될 수 있을 만큼 데이터가 빠르게 공급됩니다.

이 두 선이 교차하는 지점을 능선 지점이라고 합니다. 최대 하드웨어 활용도를 달성하기 위해 워크로드에 필요한 최소 OI를 정의합니다.

위 이미지에서 알고리즘 1은 '메모리 바운드'로 표시된 그래프 부분에 있으며 컴퓨팅 단위를 완전히 활용하지 않습니다. 반면 알고리즘 2는 OI가 더 높고 그래프의 '컴퓨팅 바운드' 부분에 있습니다. Algo 1을 최적화하기 위해 사용자는 데이터 이동을 줄이면서 더 많은 계산을 수행하도록 알고리즘을 수정하여 (OI 증가) 성능을 오른쪽, 즉 리지 포인트 쪽으로 이동하려고 합니다.

낮은 OI 워크로드와 높은 OI 워크로드의 예

낮은 HBM 작동 강도 (메모리 바운드): 요소별 작업 (ReLU 또는 GeLU와 같은 활성화 함수), 레이어 정규화, 자동 회귀 디코딩 (배치 크기 = 1 추론)과 같은 워크로드
높은 HBM 작동 강도 (컴퓨팅 바운드): GEMM 또는 대규모 배치 컨볼루션 신경망과 같은 워크로드 행을 열로 곱하는 행렬 곱셈은 가져온 데이터를 여러 번 재사용하므로 OI가 매우 높고 워크로드가 플랫 컴퓨팅 지붕 아래에 있습니다.

모델 벤치마킹

모델 벤치마킹은 실제 모델 성능을 측정합니다. 학습 및 추론 벤치마크를 사용하면 특정 시점에서 인기 모델의 성능을 비교할 수 있습니다.

다음 표에서는 학습 및 추론 워크로드의 모델 벤치마킹에서 얻을 수 있는 유용한 정보를 비교합니다.

통계	학습 워크로드	추론 워크로드
확장	대규모 테스트 (칩 10,000개 이상, 가장 큰 모델의 경우 최대 100,000개 이상)가 자주 사용됩니다. 분산 워크로드, 통신 오버헤드, 클러스터 수준 네트워킹 제한에 관한 유용한 정보를 제공합니다.	소규모 테스트 (1~64개 이상의 칩)가 많습니다. 플랫폼이 부하 상태에서 동시 사용자와 신속한 스케일업을 처리하는 방식에 관한 유용한 정보를 제공합니다.
성능	컴퓨팅에 더 많이 의존하는 경우가 많습니다. 칩당 초당 처리된 토큰 수와 모델 FLOPS 사용률 (MFU)을 측정합니다.	지연 시간에 민감합니다. 첫 번째 토큰까지의 시간 (TTFT), 토큰 간 지연 시간, 사용자당 초당 생성된 전체 토큰 수를 측정합니다.
지연 시간	대규모 데이터 세트를 로드할 때 스토리지 병목 현상을 강조하는 I/O 및 인터커넥트 지연 시간과 동기식 그라데이션 업데이트 중에 노드 간 네트워크 지연 시간	대기열 지연, 엔드포인트 지연 시간, 사용자 대상 대기 시간을 강조하는 엔드 투 엔드 응답 지연 시간입니다.

학습 벤치마킹

실제 하드웨어 및 네트워킹 효율성을 확인하려면 특정 대표 모델 아키텍처를 일정하게 유지하면서 가속기 전반에서 성능을 단일한 비교 가능한 측정항목인 칩당 초당 토큰 수 (TPS/칩)으로 정규화해야 합니다. 클러스터 크기를 확장할 때 TPS/칩이 어떻게 작동하는지 추적하면 시스템의 숨겨진 '확장세'를 발견할 수 있습니다.

가속기 비용으로 성능을 정규화하려면 TPS/칩을 각 칩의 비용으로 추가로 나누어 TPS/칩/$를 산출합니다. 이는 또 다른 비교 지점이 됩니다.

벤치마킹되는 각 모델에 대해 다음을 평가합니다.

벤치마킹	설명
기준 TPS/칩 및 TPS/칩/$ 측정	실행 가능한 가장 작은 클러스터에서 타겟 모델을 실행합니다. 전역 학습 처리량 (초당 처리된 총 토큰 수)을 기록하고 칩 수로 나누어 기준 TPS/칩을 설정합니다. 가속기 비용으로 나누어 TPS/칩/$를 구합니다. 또 다른 방법으로 학습 중에 모델 FLOPS 사용률 (MFU)을 관찰하여 이론상 최대 처리량 대비 관찰된 처리량의 비율을 측정할 수 있습니다. 이는 하드웨어 성능이 벤치마킹에 얼마나 근접한지 이해하는 데 유용합니다. 하지만 TPS/칩만큼 유용한 칩 간 비교를 제공하지는 않습니다.
확장 성능 저하 평가	클러스터를 256, 1024, 4096개의 칩으로 확장하여 동일한 모델을 실행합니다. 각 스케일에서 TPS/칩을 다시 계산합니다.
goodput 계정	모델이 실제로 학습하는 경우에만 원시 TPS/칩이 중요합니다. 하드웨어 오류, 네트워크 정체 또는 체크포인트 복구에 낭비되는 시간과 에너지를 명시적으로 제외하여 LLM의 학습 상태를 직접 발전시키는 유용한 컴퓨팅 비율을 측정하기 위해 처리량을 계산합니다. 대규모로 AI 가속기를 평가할 때 goodput은 원시 이론 처리량보다 투자 수익을 더 현실적으로 보여줍니다. 하드웨어가 실제 오류가 발생하기 쉬운 클러스터에서 성능을 얼마나 효과적으로 유지하는지 보여주기 때문입니다.

벤치마킹

설명

기준 TPS/칩 및 TPS/칩/$ 측정

실행 가능한 가장 작은 클러스터에서 타겟 모델을 실행합니다. 전역 학습 처리량 (초당 처리된 총 토큰 수)을 기록하고 칩 수로 나누어 기준 TPS/칩을 설정합니다. 가속기 비용으로 나누어 TPS/칩/$를 구합니다.

또 다른 방법으로 학습 중에 모델 FLOPS 사용률 (MFU)을 관찰하여 이론상 최대 처리량 대비 관찰된 처리량의 비율을 측정할 수 있습니다. 이는 하드웨어 성능이 벤치마킹에 얼마나 근접한지 이해하는 데 유용합니다. 하지만 TPS/칩만큼 유용한 칩 간 비교를 제공하지는 않습니다.

확장 성능 저하 평가

클러스터를 256, 1024, 4096개의 칩으로 확장하여 동일한 모델을 실행합니다. 각 스케일에서 TPS/칩을 다시 계산합니다.

goodput 계정

모델이 실제로 학습하는 경우에만 원시 TPS/칩이 중요합니다. 하드웨어 오류, 네트워크 정체 또는 체크포인트 복구에 낭비되는 시간과 에너지를 명시적으로 제외하여 LLM의 학습 상태를 직접 발전시키는 유용한 컴퓨팅 비율을 측정하기 위해 처리량을 계산합니다.

대규모로 AI 가속기를 평가할 때 goodput은 원시 이론 처리량보다 투자 수익을 더 현실적으로 보여줍니다. 하드웨어가 실제 오류가 발생하기 쉬운 클러스터에서 성능을 얼마나 효과적으로 유지하는지 보여주기 때문입니다.

다음 표에는 학습을 위해 벤치마킹할 권장 모델이 나와 있습니다.

크기	아키텍처	모델	근거
소형 (8B)	밀집	Llama 3.1 8B	Llama 3는 수년 동안 MLPerf와 같은 벤치마킹 표준에서 인기를 얻은 표준 모델입니다.
Medium (70B)	밀집	Llama 3.1 70B	Llama 3는 수년 동안 MLPerf와 같은 벤치마킹 표준에서 인기를 얻은 표준 모델입니다.
Large (671B)	MoE	DeepSeek-V3 671B	DeepSeek-V3는 2025년에 크기와 성능의 새로운 표준을 세웠으며, 여러 멀티칩 플랫폼에서 잘 최적화되어 있습니다.

예: 달러당 성능으로 정규화

일반 모델의 학습 벤치마크를 실행하여 TPS 성능을 확인한 Chip_A, Chip_B, Chip_C 간의 벤치마크 비교를 고려해 보세요. 그런 다음 동일한 모델에 대해 Chip_A 성능과 Chip_B 및 Chip_C 성능의 비율을 확인합니다.

벤치마킹	Chip_A TPS를 Chip_B TPS의 비율로 표시	Chip_A TPS가 Chip_C TPS에서 차지하는 비율
소형 밀도: Llama 3.1 8B	0.82	0.62
MoE: Mixtral 8x7B	0.72	0.55
대규모 밀도: Llama 3.1 405B	0.77	0.61
대규모 MoE: DeepSeek-V3	0.85	0.62
평균값	0.79	0.60

위 표의 데이터를 기반으로 Chip_A의 성능은 Chip_B의 성능의 평균 0.79배, Chip_C의 성능의 평균 0.60배입니다. 추가 정보가 없으면 Chip_C가 더 우수하다는 결론을 내릴 수 있습니다.

하지만 Chip_A의 비용이 100달러, Chip_B의 비용이 180달러, Chip_C의 비용이 200달러인 경우 달러당 성능 (perf/$)으로 정규화하면 결과가 달라집니다.

벤치마킹	칩 A 성능/$ 를 칩 B 성능/$의 비율로 표시	칩 A 성능/$ 를 칩 C 성능/$의 비율로 표시
소형 밀도: Llama 3.1 8B	1.48	1.24
MoE: Mixtral 8x7B	1.30	1.10
대규모 밀도: Llama 3.1 405B	1.39	1.22
대규모 MoE: DeepSeek-V3	1.53	1.24
평균값	1.42	1.20

성능/$ 를 비교 지점으로 고려하면 Chip_A가 Chip_B보다 평균 42%, Chip_C보다 평균 20% 앞섭니다.

추론 벤치마킹

학습은 막대한 초기 자본적 지출이지만, 제공 (따라서 추론)은 장기적인 운영 비용을 나타냅니다. TPS/칩이 높을수록 동일한 운영 워크로드를 지원하는 데 필요한 실제 서버 수가 줄어들어 에너지 소비와 데이터 센터 공간이 크게 줄어듭니다.

추론에서는 지연 시간 요구사항을 위반하지 않고 처리량을 최대화하여 응답성이 뛰어난 사용자 환경을 보장하는 것이 목표입니다. 고정 모델의 TPS/칩 평가를 표준화하면 다양한 칩 간의 성능을 직접 비교할 수 있습니다.

추론을 벤치마킹할 때는 TPS/칩/$를 계산하여 성능으로 정규화합니다.

벤치마킹	설명
지연 시간 SLA 설정	먼저 사용자 환경에 대한 엄격한 SLA를 설정합니다. 예를 들어 예측 가능한 테일 지연 시간 (P99)이 100밀리초입니다. TTFT (500ms 미만) 및 출력 토큰당 시간 (TPOT)을 사용하여 응답성의 사용자 환경을 측정합니다.
배치 크기 푸시	하드웨어에 대한 동시 요청 수 (배치 크기)를 점진적으로 늘립니다. 배치 크기가 증가하면 처리량이 증가하지만 결국 지연 시간이 저하됩니다.
최대 지속 TPS/칩 기록	하드웨어가 P99 지연 시간 SLA를 위반하면 중지합니다. 해당 정확한 배치 크기에서 총 시스템 처리량을 기록하고 칩 수로 나눕니다. TPS/칩 값입니다. 일부 범용 가속기는 높은 배치 부하에서 '테일 지연 시간' (처리 시간의 무작위 급증)으로 인해 어려움을 겪으므로 운영자는 사용자를 만족시키기 위해 낮은 사용률로 실행해야 합니다. 프리필(컴퓨팅 중심)과 디코딩 (메모리 대역폭 중심)이라는 두 가지 별개의 단계를 측정해야 합니다.
토큰 1,000개 또는 100만 개당 TCO 계산	하나의 칩의 상각된 자본 및 에너지 비용을 최대 지속 TPS/칩으로 나눕니다. 이렇게 하면 기술 벤치마크가 재무 측정항목으로 변환되어 실제 비용이 표시됩니다.

다음 표에는 추론을 위해 벤치마킹할 권장 모델이 나와 있습니다.

크기	아키텍처	모델	근거
소형 (8B)	밀집	Llama 3.1 8B	Llama 3는 수년 동안 MLPerf와 같은 벤치마킹 표준에서 인기를 얻은 표준 모델입니다.
Medium (70B)	밀집	Llama 3.1 70B	Llama 3는 수년 동안 MLPerf와 같은 벤치마킹 표준에서 인기를 얻은 표준 모델입니다.
Large (480B)	MoE	Qwen3 Coder 480B	Qwen3 480B는 최고의 OSS 코딩 모델입니다.