Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI Hypercomputer の概要

AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティングシステムです。パフォーマンスが最適化されたハードウェア、オープンソフトウェア、ML フレームワーク、柔軟性に優れた消費モデルの統合システムです。

AI Hypercomputer システムには、AI の事前トレーニング、チューニング、サービング全体の効率と生産性を向上させるためのベストプラクティスとシステムレベルの設計が組み込まれています。

システムアーキテクチャ

AI Hypercomputer は次のレイヤで構成されています。

パフォーマンス最適化インフラストラクチャ: ワークロードをサポートするコンピューティング機能を提供するアクセラレータ、ネットワーキング、ストレージリソースが含まれています。
オープンソフトウェア: TensorFlow、PyTorch、JAX などの一般的な ML フレームワークの最適化バージョン。Google は、クラスタでプロビジョニングされたコンピューティングリソースを活用するために必要なソフトウェアで構成されたオペレーティングシステム（OS）を提供します。多数のアクセラレータを単一のユニットとしてデプロイして管理するには、Cluster Director、Google Kubernetes Engine、Slurm を使用します。または、Compute Engine API を使用してリソースを手動でデプロイすることもできます。
利用オプション: 特定のニーズとワークロードパターンに基づいて費用とハードウェアの可用性を最適化するクラスタをプロビジョニングするための複数のオプション。

AI Hypercomputer には次の利点があります。

高パフォーマンスとグッドプット: グッドプット指標は、ML 生産性を測定します。AI Hypercomputer は、スケジューリング、ランタイム、オーケストレーションのレイヤを最適化します。
迅速に稼働: AI Hypercomputer は、最も要求の厳しい AI ワークロードと ML ワークロードをサポートするように構成されたアクセラレータ最適化リソースを、信頼性の高い方法で繰り返し大量にデプロイできるツール（Cluster Director やブループリントなど）を提供します。
パフォーマンス向けに最適化されたストレージレイヤ: Cloud Storage や Google Cloud Managed Lustre などの高パフォーマンスのストレージサービスを使用して、AI ワークロードと ML ワークロードにスケーラブルで高スループット、低レイテンシのストレージを提供します。

AI Hypercomputer は、次のユースケースのニーズを満たすように設計されています。

ユースケース	ワークロードの例
大規模な AI / ML ワークロード	生成 AI の分散トレーニング生成 AI の推論不正行為の検出レコメンデーションモデル
ハイパフォーマンスコンピューティング（HPC）	複雑なシミュレーション創薬、タンパク質フォールディング、ゲノム解析リスク分析と量的取引

ユースケース

ワークロードの例