AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。パフォーマンスが最適化されたハードウェア、オープン ソフトウェア、ML フレームワーク、柔軟性に優れた消費モデルの統合システムです。
AI ハイパーコンピュータ システムには、AI の事前トレーニング、チューニング、サービング全体の効率と生産性を向上させるためのベスト プラクティスとシステムレベルの設計が組み込まれています。
システム アーキテクチャ
AI Hypercomputer は次のレイヤで構成されています。
- パフォーマンス最適化インフラストラクチャ: ワークロードをサポートするコンピューティング機能を提供するアクセラレータ、ネットワーキング、ストレージ リソースが含まれています。
- オープン ソフトウェア: TensorFlow、PyTorch、JAX などの一般的な ML フレームワークの最適化されたバージョン。Google は、クラスタでプロビジョニングされたコンピューティング リソースを活用するために必要なソフトウェアで構成されたオペレーティング システム(OS)を提供します。多数のアクセラレータを単一ユニットとしてデプロイ、管理するには、Cluster Director、Google Kubernetes Engine、Slurm を使用できます。また、Compute Engine API を使用してリソースを手動でデプロイすることもできます。
- 使用オプション: 特定のニーズとワークロード パターンに基づいて費用とハードウェアの可用性を最適化するクラスタをプロビジョニングするための複数のオプション。
利点
AI Hypercomputer には次の利点があります。
- 高パフォーマンスとグッドプット: Goodput指標は ML 生産性を測定します。AI Hypercomputer は、スケジューリング、ランタイム、オーケストレーションのレイヤを最適化します。
- 迅速に稼働を開始する: AI Hypercomputer は、最も要求の厳しい AI ワークロードと ML ワークロードをサポートするように構成されたアクセラレータ最適化リソースを、信頼性の高い方法で繰り返し大量にデプロイできるツール(Cluster Director やブループリントなど)を提供します。
ユースケース
AI ハイパーコンピュータは、次のユースケースのニーズを満たすように設計されています。
ユースケース |
ワークロードの例 |
|---|---|
大規模な AI / ML ワークロード |
|
ハイ パフォーマンス コンピューティング(HPC) |
|
次のステップ
- パフォーマンスが最適化されたインフラストラクチャを確認します。
- GPU ネットワーキングの概要を確認する。
- 消費モデルを確認します。
- クラスタ管理について学習する。