AI Hypercomputer 是經過最佳化調整的超級運算系統,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。此系統整合了效能最佳化的硬體、開放軟體、機器學習框架,並提供彈性計費模式。
AI Hypercomputer 系統採用最佳做法和系統層級設計,可全面提升 AI 預先訓練、調整和服務提供效率。
系統架構
AI Hypercomputer 包含下列層級:
- 效能最佳化基礎架構:包含加速器、網路和儲存空間資源,可提供運算功能來支援工作負載。
- 開放式軟體:TensorFlow、PyTorch 和 JAX 等熱門機器學習架構的最佳化版本。Google 提供作業系統 (OS),其中已設定必要軟體,可充分運用叢集中佈建的運算資源。如要將大量的加速器做為單一單元部署和管理,您可以使用 Cluster Director、Google Kubernetes Engine 或 Slurm。或者,您也可以使用 Compute Engine API 手動部署資源。
- 用量選項:提供多種選項,可根據特定需求和工作負載模式,佈建叢集並盡量降低成本,同時確保硬體可用性。
優點
AI Hypercomputer 具有下列優點:
- 高效能和有效處理量:Goodput指標可評估機器學習效率。 AI Hypercomputer 會最佳化排程、執行階段和自動調度管理層。
- 快速啟動及執行:AI Hypercomputer 提供 Cluster Director 和藍圖等工具,可讓您可靠地重複部署大量經過最佳化的加速器資源,這些資源經過設定,可支援最嚴苛的 AI 和機器學習工作負載。
用途
AI 超級電腦的設計宗旨是滿足下列用途的需求:
用途 |
工作負載範例 |
|---|---|
大規模 AI 和機器學習工作負載 |
|
高效能運算 (HPC) |
|