AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。パフォーマンスが最適化されたハードウェア、オープン ソフトウェア、ML フレームワーク、柔軟性に優れた消費モデルの統合システムです。
AI Hypercomputer システムには、AI の事前トレーニング、チューニング、サービング全体の効率と生産性を向上させるためのベスト プラクティスとシステムレベルの設計が組み込まれています。
システム アーキテクチャ
AI Hypercomputer は次のレイヤで構成されています。
- パフォーマンス最適化インフラストラクチャ: ワークロードをサポートするコンピューティング機能を提供するアクセラレータ、ネットワーキング、ストレージ リソースが含まれています。
- オープン ソフトウェア: TensorFlow、PyTorch、JAX などの一般的な ML フレームワークの最適化バージョン。Google は、クラスタでプロビジョニングされたコンピューティング リソースを活用するために必要なソフトウェアで構成されたオペレーティング システム(OS)を提供します。多数のアクセラレータを単一のユニットとしてデプロイして管理するには、Cluster Director、Google Kubernetes Engine、Slurm を使用します。または、Compute Engine API を使用してリソースを手動でデプロイすることもできます。
- 利用オプション: 特定のニーズとワークロード パターンに基づいて費用とハードウェアの可用性を最適化するクラスタをプロビジョニングするための複数のオプション。
利点
AI Hypercomputer には次の利点があります。
- 高パフォーマンスとグッドプット: グッドプット指標は、ML 生産性を測定します。AI Hypercomputer は、スケジューリング、ランタイム、オーケストレーションのレイヤを最適化します。
- 迅速に稼働: AI Hypercomputer は、最も要求の厳しい AI ワークロードと ML ワークロードをサポートするように構成されたアクセラレータ最適化リソースを、信頼性の高い方法で繰り返し大量にデプロイできるツール(Cluster Director やブループリントなど)を提供します。
- パフォーマンス向けに最適化されたストレージ レイヤ: Cloud Storage や Google Cloud Managed Lustre などの高パフォーマンスのストレージ サービスを使用して、AI ワークロードと ML ワークロードにスケーラブルで高スループット、低レイテンシのストレージを提供します。
ユースケース
AI Hypercomputer は、次のユースケースのニーズを満たすように設計されています。
ユースケース |
ワークロードの例 |
|---|---|
大規模な AI / ML ワークロード |
|
ハイ パフォーマンス コンピューティング(HPC) |
|