AI 加速器性能和基准化分析

评估 AI 硬件以用于将大语言模型 (LLM) 作为主要工作负载,需要采用一致的、与供应商无关的方法。本指南介绍了一种比较不同供应商(例如 NVIDIA、AMD、 Google和 AWS)的 AI 加速器芯片性能的方法。这些原则和方法适用于任何 AI 芯片或工作负载,但示例侧重于 NVIDIA 图形处理器 (GPU) 和 Google张量处理单元 (TPU) 运行 LLM 工作负载的常见行业搭配。

模型通常针对特定硬件平台进行优化,因此仅评估模型性能不足以了解硬件的功能。在评估 LLM 的加速器芯片时,请考虑三个关键维度:微基准测试、屋顶线分析以及训练和推理的模型基准测试。

微基准分析和屋顶线分析对于了解给定加速器平台的功能和潜力至关重要。了解这些信息后,对训练和推理过程中的模型进行基准比较,可以比较芯片之间的实际工作负载,并深入了解模型架构是否针对特定平台进行了优化。

效果维度

我们建议评估人员从三个维度考虑性能,以便更全面地了解给定的加速器系统:

  • 微基准评测:拥有最高的硬件规格并不意味着应用可以实际利用这些规格。您可以使用微基准测试来评估每秒浮点运算次数 (FLOPS)、高带宽内存 (HBM) 和网络带宽如何影响实际工作负载中的可实现性能。
  • Roofline 分析:内存带宽或计算速度可能会阻碍硬件实现最佳利用率。您可以使用屋脊线模型和不同系统组件的运算强度 (OI),了解硬件和工作负载的匹配程度。微基准和屋顶线的组合可提供理论评估,以了解所选硬件在不同类型的工作负载下可实现的效果。
  • 模型基准比较:通过对训练和推理工作负载进行基准比较,以测量每芯片每秒的令牌数 (TPS/芯片),您可以评估不同平台上的同一模型。如果初始结果与微基准评测和屋顶线分析结果不同,则表明需要额外的软件工作才能实现之前确定的屋顶线。例如,这项工作可能涉及更改分片策略或使用自定义内核。

请注意,模型基准比较方法是针对特定模型、规模和平台的即时比较方法。经验丰富的用户在评估性能时还会考虑行业趋势(例如模型架构)、微基准测试和屋顶线结果。

模型和硬件协同设计

性能评估必须在被测硬件的背景下仔细考虑模型架构。高效设计的模型通常是针对特定硬件平台共同设计的,以利用特定的平台细微差别。因此,这些模型可能无法充分利用其他平台,甚至无法充分利用同一平台的不同代。例如,为 NVIDIA Hopper GPU 设计的模型可能无法充分利用 AMD GPU 或 NVIDIA Blackwell GPU。

如果硬件平台的功能可能有所不同,那么在跨硬件平台迁移时,此注意事项尤为重要,因为为某个平台设计的模型可能需要进行配置更改、软件更改或同时进行这两项更改,才能在其他平台上实现最佳性能。对优化后的模型进行基准比较对于验证供应商有关“理论峰值”性能的营销声明以及衡量实际结果至关重要。独立分析公司 SemiAnalysis 指出:“比较理论 FLOPS 只能说明部分情况。重要的是有效 FLOPS,因为在实际工作负载中几乎永远达不到峰值。”

示例:gpt-oss-120B 挑战

基准比较中的一个常见陷阱是在模型未设计的硬件上评估模型。OpenAI 的 gpt-oss-120B 开放权重模型就是一个很好的例子,说明了模型架构必须与目标芯片紧密匹配。以下示例表明,模型共同设计至关重要,必须在流程的早期阶段进行。

gpt-oss-120B 模型使用的注意力头维度为 64。虽然这对于许多经过 GPU 优化的模型来说是标准做法,但会造成 TPU 加速器的架构不匹配。TrilliumIronwood 等 TPU 针对 256 的倍数的矩阵维度进行了优化,以充分饱和其矩阵乘法单元 (MXU)。由于头维度 64 未针对 TPU 进行优化,因此在 TPU 系统上运行 gpt-oss-120B 会导致每秒令牌数 (TPS) 和模型 FLOPS 利用率 (MFU) 降低。硬件会浪费时钟周期和功率,用零填充剩余空间以适应其 256x256 执行网格。

gpt-oss-120B 用作 TPU 的基准可能会错误地表明硬件能力不足,而实际上它反映的是软件架构不匹配。为了准确评估加速器的“上限”,请使用专门为其几何形状共同设计的模型对其进行测试。例如,头部维度为 128 或 256 的模型,如 Gemma 4。您可以使用避免填充零的自定义内核来提高此模型的性能,而是“填满”MXU,这需要专业知识,并且无法达到与 GPU 相同的性能水平。您还可以更改头部维度,以便更优化地使用 TPU,但此更改会使现有模型权重失效,需要重新训练。

基准比较原则

为了提供公平且面向未来的评估,请考虑以下加速器基准比较原则:

  • 注重单位成本的性能:有些供应商专注于单芯片原始性能,但单位成本的系统级性能更能代表总体总拥有成本 (TCO) 和价值。如果芯片 A 的性能比芯片 B 高 20%,但价格也比芯片 B 高 50%,评估人员应认识到芯片 B 的性价比更高。还要将每瓦性能视为成本的一部分。
  • 代表现代 AI 工作负载:在考虑行业趋势的同时,侧重于基于 Transformer 的热门模型、大型集群和最新框架。例如,业界向稀疏混合专家 (MoE) 模型转型,使得在要求网络提供更高对分带宽的同时,更难充分优化 FLOPS。
  • 确保广泛支持开发者需求:考虑不同工作负载(包括训练、微调和提供各种 LLM 及其他模型的服务)的性能、灵活性和可伸缩性。
  • 选择与供应商无关的模型和工具:选择可在各种加速器上运行的模型和引擎,以便更轻松地进行跨加速器评估。 例如,使用 Qwen 和 Gemma 等开放模型,以及在 GPU 和 TPU 上运行的开源推理引擎(例如 vLLM)。 避免使用特定于硬件的 PyTorch/CUDA 堆栈。对于模型训练基准比较,当模型在不同平台之间保持不变时,特定于供应商的框架(例如适用于 TPU 的 MaxText 和适用于 GPU 的 Megatron)最有用。
  • 模型共同设计:经验丰富的用户共同设计模型,以充分利用硬件平台。不要期望在芯片 A 上训练的模型在芯片 B 上具有良好的“开箱即用”性能。
  • 考虑整个硬件系统:有些加速器可能在某个方面(例如 FLOPS)表现出高性能。但其他方面的瓶颈(例如内存带宽)可能会严重限制加速器的功能。需要考虑的其他系统方面包括芯片规格、芯片联网和横向扩缩架构。
  • 硬件和软件可靠性:大规模训练或关键推理操作期间的中断可能会造成极高的成本。同样,AI 加速器的实用性取决于在其上运行的软件。成熟可靠且经过大规模验证的软件堆栈对于最大限度地提升价值至关重要。

微基准

在加速器基准化方面,微基准化会隔离特定的硬件组件(例如计算核心、内存和互连),以测量其绝对限制,而不会受到复杂软件堆栈的干扰。许多供应商都强调“单芯片峰值 FLOPS”,但现实世界中的 AI 是一个分布式系统问题。通过微基准评测,您可以了解芯片是仅在隔离状态下性能强大,还是专为数据中心规模而设计。

使用微基准评测来衡量硬件的峰值性能,并了解系统的实际限制(与模型架构无关)。 在针对未来或未确定的使用情形和模型架构评估加速器时,微基准评测尤其有用。

如需有效地对加速器进行微基准化分析,请评估以下方面:

基准 说明
密集型通用矩阵乘法 (GEMM) 利用率 以各种精度执行高度优化的 GEMM 内核,以测量加速器核心计算单元的原始持续数学计算能力。
高带宽内存 (HBM) 流式传输 运行内存带宽微基准测试,以测量加速器板载内存的持续读取、写入和复制速度。可保持良好的字节与 FLOP 比率的架构可防止计算核心处于闲置状态。
分布式集合(全归约和全收集) 在数千个芯片上执行标准化集体通信测试,以衡量随着集群规模的扩大,网络带宽和延迟的降幅有多大。
主机到设备 (H2D) 和设备到主机 (D2H) 传输速率 在主机 CPU 的系统内存和加速器之间推送大量连续的数据流,以测量 PCIe 总线或自定义互连的传输速率。
持续的温控调频和功耗 持续运行最大利用率 GEMM 循环 48 小时,同时监控机架级功耗,以评估持续的热稳定性以及实际的能效。

微基准比较示例

以下是两种芯片之间的说明性比较,其中假设的芯片 A 可能看起来比假设的芯片 B 更好,但在实际应用中性能更差:

基准名称 芯片 A 的测试结果 芯片 A 规范 测试 / 规范比率 芯片 B 的测试结果 芯片 B 规格 测试 / 规范比率
芯片到芯片的网络 800 GBps 1,000 GBps 80.0% 850 GBps 900 GBps 94.4%
gemm/peakTOPS 1,800 TFLOPS 2,500 TFLOPS 72.0% 1,800 TFLOPS 2,000 TFLOPS 90.0%
内存带宽 6,000 GBps 8,000 GBps 75.0% 6,500 GBps 7,500 GBps 86.7%
主机到设备 58 GBps/芯片 70 GBps/芯片 82.9% 60 GBps/芯片 65 GBps/芯片 92.3%
设备到主机 55 GBps/芯片 70 GBps/芯片 78.6% 55 GBps/芯片 65 GBps/芯片 84.6%

屋顶线分析

屋顶线分析(或屋顶线模型)可为您提供可视化图表,用于分析不同系统组件的运算强度 (OI),以及特定设计对特定平台的适用程度。

AI 加速器芯片的吞吐量受以下三个主要因素的限制:

  1. 计算容量:芯片的峰值数学吞吐量 (FLOPS)。
  2. 内存带宽:数据传入或传出芯片本地高带宽内存 (HBM) 的速率。
  3. 网络带宽:在分布式训练或推理期间,使用芯片联网在多个芯片之间共享数据的速率。例如,ICI(适用于 TPU)或 NVLink(适用于 GPU)的传输速率。

如需详细了解屋脊线,请参阅屋脊线简介

标准屋脊图包含两个轴:

  • X 轴(操作强度):操作强度是指计算工作量(以 FLOPS 为单位)与内存流量(以传输的字节数为单位)的比率,以每字节 FLOPS 数表示。它表示从内存中提取的每字节数据所完成的计算工作量。
  • Y 轴(可实现的性能):可实现的性能以每秒浮点运算次数 (FLOPS) 表示。它表示实际实现的计算吞吐量。

屋顶线模型图,显示了硬件峰值性能如何受到内存带宽和计算容量的限制

“屋顶”由两条相交的线构成,分别代表硬件最大值:

  1. 倾斜的屋顶(内存受限):可实现的性能 = 峰值内存带宽 × 运算强度。在此线上,性能严格受限于向计算单元馈送数据的速度。
  2. 平屋顶(受计算限制):可实现的性能 = 峰值计算容量。在此线上,数据供应速度足够快,计算单元以最大容量运行。

这两条线的交点称为“岭点”。它定义了工作负载实现最大硬件利用率所需的最低 OI。

在上图中,算法 1 位于图表中标记为“内存受限”的部分,并未充分利用计算单元。相比之下,Algo 2 的 OI 更高,位于图表中标记为“计算受限”的部分。为了优化算法 1,用户会尝试修改该算法,以在数据移动较少的情况下进行更多计算(提高 OI),从而使性能向右移动,接近脊点。

低 OI 工作负载和高 OI 工作负载示例

  • 低 HBM 运行强度(内存受限):逐元素运算(例如 ReLU 或 GeLU 等激活函数)、层归一化和自回归解码(批次大小为 1 的推理)等工作负载。
  • 高 HBM 运行强度(受计算限制):例如 GEMM 或大批量卷积神经网络等工作负载。矩阵乘法会多次重复使用提取的数据(将行乘以列),因此 OI 非常高,工作负载位于平坦的计算屋顶下。

模型基准比较

模型基准比较可衡量实际模型性能。借助训练和推理基准,您可以比较热门模型在特定时间点的性能。

下表比较了从模型基准比较中获得的有关训练和推理工作负载的分析洞见:

数据分析 训练工作负载 推理工作负载
扩缩 通常是更大规模的测试(1 万个以上的芯片,对于最大的模型,最多可达 10 万个以上)。深入了解分布式工作负载、通信开销和集群级网络限制。 通常是较小的测试(1-64+ 个芯片)。深入了解平台在负载下如何处理并发用户和快速扩容。
性能 通常更受计算限制。衡量每个芯片每秒处理的 token 数和模型 FLOPS 利用率 (MFU)。 延迟敏感型特性。衡量首个 token 的延迟时间 (TTFT)、token 间延迟时间以及每位用户每秒生成的总 token 数。
延迟时间 I/O 和互连延迟时间,用于突出显示加载大型数据集时的存储瓶颈以及同步梯度更新期间节点之间的网络延迟时间。 端到端响应延迟时间,突出显示了排队延迟时间、端点延迟时间和面向用户的等待时间。

训练基准比较

如需确定真实的硬件和网络效率,您必须将性能归一化为加速器之间可比较的单一指标:每芯片每秒生成的令牌数 (TPS/芯片),同时保持特定的代表性模型架构不变。通过跟踪在扩大集群规模时 TPS/芯片的行为,您可以发现系统的隐藏“规模税”。

为了将性能与加速器的费用进行归一化处理,请进一步将每芯片的 TPS 除以每个芯片的费用,得出每芯片的 TPS/美元,这会成为另一个比较点。

对于要进行基准比较的每个模型,请评估以下方面:

基准 说明
衡量基准 TPS/芯片和 TPS/芯片/$

在最小的可行集群上运行目标模型。记录全局训练吞吐量(每秒处理的 token 总数),然后除以芯片数量,以确定基准 TPS/芯片。除以加速器费用,即可得到 TPS/芯片/美元。

另一种方法是在训练期间观察模型 FLOPs 利用率 (MFU),以衡量观测到的吞吐量相对于理论最大吞吐量的比率。这有助于了解硬件性能与基准比较结果的接近程度。不过,与 TPS/芯片相比,它提供的芯片到芯片比较的实用性较低。

评估伸缩降级 将集群扩缩到 256、1024 和 4096 个芯片,运行完全相同的模型。重新计算每个规模下的每芯片 TPS。
有效吞吐量的账号

只有当模型实际在学习时,原始 TPS/芯片才有意义。 计算有效吞吐量,以衡量直接推进 LLM 训练状态的有效计算速率,明确排除因硬件故障、网络停滞或检查点恢复而浪费的时间和能耗。

在大规模评估 AI 加速器时,与原始理论吞吐量相比,有效吞吐量能更真实地反映投资回报率,因为它揭示了硬件在容易出现故障的实际集群中维持性能的有效性。

下表列出了建议用于训练基准比较的模型:

大小 架构 模型 原因
小 (80 亿) 密集 Llama 3.1 8B Llama 3 一直是一款标准模型,多年来一直受到 MLPerf 等基准标准的欢迎。
中 (70B) 密集 Llama 3.1 70B Llama 3 一直是一款标准模型,多年来一直受到 MLPerf 等基准标准的欢迎。
大 (671B) MoE DeepSeek-V3 671B DeepSeek-V3 在 2025 年树立了规模和性能的新标准,并在许多多芯片平台上进行了优化。

示例:将效果标准化为每美元带来的效果

假设您对 Chip_A、Chip_B 和 Chip_C 进行了基准比较,其中您运行了常见模型的训练基准,以查看 TPS 方面的性能。然后,您查看同一模型中 Chip_A 的性能与 Chip_B 和 Chip_C 的性能之比:

基准 芯片 A 的 TPS 与芯片 B 的 TPS 的比值 Chip_A TPS(占 Chip_C TPS 的百分比)
小型密集模型:Llama 3.1 8B 0.82 0.62
MoE:Mixtral 8x7B 0.72 0.55
大型密集型:Llama 3.1 405B 0.77 0.61
大型 MoE:DeepSeek-V3 0.85 0.62
平均值 0.79 0.60

根据上表中的数据,Chip_A 的性能平均为 Chip_B 的 0.79 倍,为 Chip_C 的 0.60 倍。如果没有更多信息,结论将是 Chip_C 更胜一筹。

不过,如果芯片 A 的费用为 100 美元,芯片 B 的费用为 180 美元,芯片 C 的费用为 200 美元,那么将性能归一化为每美元性能(性能/美元)会改变结果:

基准 芯片 A 的性能/美元与芯片 B 的性能/美元的比值 芯片 A 的性能/价格与芯片 C 的性能/价格之比
小型密集模型:Llama 3.1 8B 1.48 1.24
MoE:Mixtral 8x7B 1.30 1.10
大型密集型:Llama 3.1 405B 1.39 1.22
大型 MoE:DeepSeek-V3 1.53 1.24
平均值 1.42 1.20

如果以性能/美元作为比较点,Chip_A 的平均性能/美元比 Chip_B 高 42%,比 Chip_C 高 20%。

推理基准化分析

训练是一项巨大的前期资本支出,但提供服务(以及推理)代表着长期的运营支出。每芯片的 TPS 越高,支持相同运营工作负载所需的物理服务器就越少,从而大幅降低能源消耗和数据中心占用空间。

在推理中,目标是在不违反延迟要求的情况下最大限度地提高吞吐量,以确保响应迅速的用户体验。通过对固定模型的每芯片 TPS 进行标准化评估,您可以直接比较不同芯片的性能。

在对推理进行基准化分析时,请通过计算 TPS/芯片/$ 将性能归一化:

基准 说明
确定延迟时间 SLA

首先,为用户体验设置严格的 SLA。例如,可预测的尾部延迟时间 (P99) 为 100 毫秒。使用 TTFT(小于 500 毫秒)和每个输出令牌的时间 (TPOT) 来衡量响应速度的用户体验。

推送批次大小 逐渐增加针对硬件的并发请求数(批次大小)。随着批次大小的增加,吞吐量会上升,但延迟时间最终会下降。
记录每个芯片的最大持续 TPS

当硬件违反 P99 延迟时间 SLA 时,停止。记录该确切批次大小下的总系统吞吐量,然后除以芯片数量。这是您的每芯片 TPS 值。

请注意,在批处理负载较高的情况下,一些通用加速器在“尾部延迟时间”(处理时间随机出现峰值)方面表现不佳,迫使运营商以较低的利用率运行这些加速器,以确保用户满意度。

确保在预填充(计算受限)和解码(内存带宽受限)这两个不同的阶段进行测量

计算每千个或每百万个 token 的 TCO 将一个芯片的摊销资本和能耗除以其最大持续 TPS/芯片。这会将技术基准转化为财务指标,从而揭示真实成本。

下表列出了建议用于推理基准测试的模型:

大小 架构 模型 原因
小 (80 亿) 密集 Llama 3.1 8B Llama 3 一直是一款标准模型,多年来一直受到 MLPerf 等基准标准的欢迎。
中 (70B) 密集 Llama 3.1 70B Llama 3 一直是一款标准模型,多年来一直受到 MLPerf 等基准标准的欢迎。
大 (480B) MoE Qwen3 Coder 480B Qwen3 480B 是一款领先的 OSS 编码模型。

后续步骤