AI 超級電腦總覽

AI Hypercomputer 是經過最佳化調整的超級運算系統,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。此系統整合了效能最佳化的硬體、開放軟體、機器學習框架,並提供彈性計費模式。

AI Hypercomputer 系統採用最佳做法和系統層級設計,可全面提升 AI 預先訓練、調整和服務提供效率。

系統架構

AI Hypercomputer 包含下列層級:

  • 效能最佳化基礎架構:包含加速器、網路和儲存空間資源,可提供運算功能來支援工作負載。
  • 開放式軟體:TensorFlow、PyTorch 和 JAX 等熱門機器學習架構的最佳化版本。Google 提供作業系統 (OS),其中已設定必要軟體,可充分運用叢集中佈建的運算資源。如要將大量的加速器做為單一單元部署和管理,您可以使用 Cluster Director、Google Kubernetes Engine 或 Slurm。或者,您也可以使用 Compute Engine API 手動部署資源。
  • 用量選項:提供多種選項,可根據特定需求和工作負載模式,佈建叢集並盡量降低成本,同時確保硬體可用性。

優點

AI Hypercomputer 具有下列優點:

  • 高效能和有效處理量Goodput指標可評估機器學習效率。 AI Hypercomputer 會最佳化排程、執行階段和自動調度管理層。
  • 快速啟動及執行:AI Hypercomputer 提供 Cluster Director藍圖等工具,可讓您可靠地重複部署大量經過最佳化的加速器資源,這些資源經過設定,可支援最嚴苛的 AI 和機器學習工作負載。

用途

AI 超級電腦的設計宗旨是滿足下列用途的需求:


用途

工作負載範例

大規模 AI 和機器學習工作負載

  • 生成式 AI 分散式訓練
  • 生成式 AI 推論
  • 詐欺偵測
  • 推薦模型

高效能運算 (HPC)

  • 複雜的模擬
  • 藥物探索、蛋白質摺疊和基因體分析
  • 風險分析和量化交易

後續步驟