術語

使用 AI Hypercomputer 時,經常會用到下列術語。

封鎖
一系列透過無阻斷結構互連的子區塊,可在所有主機之間提供高頻寬連線。

叢集
透過高速網路結構互連的模塊集合。每個叢集都是全域專屬。對於 A4X、A4、A3 Ultra、A3 Mega 和 A3 High (8 個 GPU) 機器,叢集會為加速器容量區塊提供常見的非封鎖網路結構。在叢集內,整個區塊集合的東向西網路不會遭到封鎖。

密集部署
資源要求:分配實體位置彼此鄰近的加速器資源,盡量減少網路躍點,並將延遲降至最低。

網路架構
網路架構可在叢集中的所有區塊和 Google Cloud 服務之間,提供高頻寬、低延遲的連線。Jupiter 是 Google 的資料中心網路架構,採用軟體定義網路和光路交換器,可演進網路並提升效能。

節點或主機
資料中心內的單一實體伺服器機器。每個主機都有相關聯的運算資源,例如加速器。這些運算資源的數量和設定取決於機器系列。Compute Engine 執行個體是在實體主機上佈建。

NVLink 網域 (也稱為子區塊) 是 A4X Max 和 A4X 機器的容量核心單元。NVLink 網域由 18 個 A4X Max 或 A4X 執行個體 (72 個 GPU) 組成,並透過多節點 NVLink 系統連線。

子區塊
位於單一實體機架上的一組主機和相關聯的連線硬體。在 A4X Max 和 A4X 機器中,子模塊也稱為 NVLink 網域。

更多資訊

下列文件進一步說明與對應主題相關的術語: