术语

使用 AI Hypercomputer 时,经常会用到以下术语。

屏蔽
一组通过非阻塞结构互连的子区块,可在所有主机之间提供高带宽连接。

集群
通过高速网络结构互联的区块集合。每个集群都是全局唯一的。对于 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器,集群可为加速器容量块提供通用的无阻塞网络结构。在集群内,东到西的网络对于整个块集合是非阻塞的。

密集部署
一种资源请求,用于将加速器资源分配在物理上彼此靠近的位置,以最大限度地减少网络跃点并针对最短延迟时间进行优化。

网络结构
网络结构可在集群中的所有区块和 Google Cloud 服务之间提供高带宽、低延迟的连接。Jupiter 是 Google 的数据中心网络架构,它利用软件定义网络和光学电路开关来改进网络并优化其性能。

节点或主机
数据中心内的单个物理服务器机器。每个主机都有关联的计算资源,例如加速器。这些计算资源的数量和配置取决于机器家族。Compute Engine 实例是在物理主机上预配的。

NVLink 网域(也称为子块)是 A4X Max 和 A4X 机器的核心容量单位。NVLink 网域由 18 个 A4X Max 或 A4X 实例(72 个 GPU)组成,这些实例通过多节点 NVLink 系统连接在一起。

子区块
位于单个物理机架上的一组主机和关联的连接硬件。在 A4X Max 和 A4X 机器的上下文中,子块也称为 NVLink 网域。

更多信息

以下文档进一步说明了与相应主题相关的术语: