AI Hypercomputer の概要

AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティング システムです。パフォーマンスが最適化されたハードウェア、オープン ソフトウェア、ML フレームワーク、柔軟性に優れた消費モデルの統合システムです。

AI ハイパーコンピュータ システムには、AI の事前トレーニング、チューニング、サービング全体の効率と生産性を向上させるためのベスト プラクティスとシステムレベルの設計が組み込まれています。

システム アーキテクチャ

AI Hypercomputer は次のレイヤで構成されています。

  • パフォーマンス最適化インフラストラクチャ: ワークロードをサポートするコンピューティング機能を提供するアクセラレータ、ネットワーキング、ストレージ リソースが含まれています。
  • オープン ソフトウェア: TensorFlow、PyTorch、JAX などの一般的な ML フレームワークの最適化されたバージョン。Google は、クラスタでプロビジョニングされたコンピューティング リソースを活用するために必要なソフトウェアで構成されたオペレーティング システム(OS)を提供します。多数のアクセラレータを単一ユニットとしてデプロイ、管理するには、Cluster Director、Google Kubernetes Engine、Slurm を使用できます。また、Compute Engine API を使用してリソースを手動でデプロイすることもできます。
  • 使用オプション: 特定のニーズとワークロード パターンに基づいて費用とハードウェアの可用性を最適化するクラスタをプロビジョニングするための複数のオプション。

利点

AI Hypercomputer には次の利点があります。

  • 高パフォーマンスとグッドプット: Goodput指標は ML 生産性を測定します。AI Hypercomputer は、スケジューリング、ランタイム、オーケストレーションのレイヤを最適化します。
  • 迅速に稼働を開始する: AI Hypercomputer は、最も要求の厳しい AI ワークロードと ML ワークロードをサポートするように構成されたアクセラレータ最適化リソースを、信頼性の高い方法で繰り返し大量にデプロイできるツール(Cluster Directorブループリントなど)を提供します。

ユースケース

AI ハイパーコンピュータは、次のユースケースのニーズを満たすように設計されています。


ユースケース

ワークロードの例

大規模な AI / ML ワークロード

  • 生成 AI の分散トレーニング
  • 生成 AI の推論
  • 不正行為の検出
  • レコメンデーション モデル

ハイ パフォーマンス コンピューティング(HPC)

  • 複雑なシミュレーション
  • 創薬、タンパク質フォールディング、ゲノム解析
  • リスク分析と量的取引

次のステップ