AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。 パフォーマンスが最適化されたハードウェア、オープン ソフトウェア、ML フレームワーク、柔軟性に優れた消費モデルの統合システムです。
AI Hypercomputer システムには、AI の事前トレーニング、チューニング、サービング全体の効率と生産性を向上させるためのベスト プラクティスとシステムレベルの設計が組み込まれています。
システム アーキテクチャ
AI Hypercomputer は、次のレイヤで構成されています。
- パフォーマンスが最適化されたインフラストラクチャ: ワークロードをサポートするコンピューティング機能を提供するアクセラレータ、 ネットワーキング、ストレージ リソース が含まれています。
- オープン ソフトウェア: TensorFlow、PyTorch、JAX などの一般的な ML フレームワークの最適化されたバージョン。Google は、クラスタにプロビジョニングされたコンピューティング リソースを活用するために不可欠なソフトウェアで構成されたオペレーティング システム(OS)を提供しています。 多数のアクセラレータを単一ユニットとしてデプロイ、管理するには、 Cluster Director、 Google Kubernetes Engine、Slurm を使用します。または、Compute Engine API を使用してリソースを手動でデプロイすることもできます。
- 消費オプション: 特定のニーズと ワークロード パターンに基づいて費用とハードウェアの可用性を 最適化するクラスタをプロビジョニングするための複数のオプション。
特典
AI Hypercomputer には次の利点があります。
- 高いパフォーマンスとグッドプット: グッドプット 指標は ML の生産性を測定します。 AI Hypercomputer は、スケジューリング、ランタイム、および オーケストレーションのレイヤを最適化します。
- 迅速な起動と実行: AI Hypercomputer には、 Cluster Director や ブループリントなどのツールが用意されています。これにより、 最も要求の厳しい AI ワークロードと ML ワークロードをサポートするように構成された、 アクセラレータ最適化リソースを大量に、 信頼性の高い方法で繰り返しデプロイできます。
- パフォーマンス向けに最適化されたストレージ レイヤ: Cloud Storage や Google Cloud Managed Lustre などの高パフォーマンス ストレージ サービスを使用して、AI ワークロードと ML ワークロードにスケーラブルで高スループット、低レイテンシの ストレージを提供します。
ユースケース
AI Hypercomputer は、次のユースケースのニーズを満たすように設計されています。
ユースケース |
サンプルのワークロード |
|---|---|
大規模な AI ワークロードと ML ワークロード |
|
ハイ パフォーマンス コンピューティング(HPC) |
|