Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI Hypercomputer の概要

AI Hypercomputer は、AI と ML のワークロードをサポートするように最適化されたスーパーコンピューティングシステムです。パフォーマンスが最適化されたハードウェア、オープンソフトウェア、ML フレームワーク、柔軟性に優れた消費モデルの統合システムです。

AI Hypercomputer システムには、AI の事前トレーニング、チューニング、サービング全体の効率と生産性を向上させるためのベストプラクティスとシステムレベルの設計が組み込まれています。

システムアーキテクチャ

AI Hypercomputer は、次のレイヤで構成されています。

パフォーマンスが最適化されたインフラストラクチャ: ワークロードをサポートするコンピューティング機能を提供するアクセラレータ、ネットワーキング、ストレージリソースが含まれています。
オープンソフトウェア: TensorFlow、PyTorch、JAX などの一般的な ML フレームワークの最適化されたバージョン。Google は、クラスタにプロビジョニングされたコンピューティングリソースを活用するために不可欠なソフトウェアで構成されたオペレーティングシステム（OS）を提供しています。多数のアクセラレータを単一ユニットとしてデプロイ、管理するには、 Cluster Director、 Google Kubernetes Engine、Slurm を使用します。または、Compute Engine API を使用してリソースを手動でデプロイすることもできます。
消費オプション: 特定のニーズとワークロードパターンに基づいて費用とハードウェアの可用性を最適化するクラスタをプロビジョニングするための複数のオプション。

AI Hypercomputer には次の利点があります。

高いパフォーマンスとグッドプット: グッドプット指標は ML の生産性を測定します。 AI Hypercomputer は、スケジューリング、ランタイム、およびオーケストレーションのレイヤを最適化します。
迅速な起動と実行: AI Hypercomputer には、 Cluster Director やブループリントなどのツールが用意されています。これにより、最も要求の厳しい AI ワークロードと ML ワークロードをサポートするように構成された、アクセラレータ最適化リソースを大量に、信頼性の高い方法で繰り返しデプロイできます。
パフォーマンス向けに最適化されたストレージレイヤ: Cloud Storage や Google Cloud Managed Lustre などの高パフォーマンスストレージサービスを使用して、AI ワークロードと ML ワークロードにスケーラブルで高スループット、低レイテンシのストレージを提供します。

AI Hypercomputer は、次のユースケースのニーズを満たすように設計されています。

ユースケース	サンプルのワークロード
大規模な AI ワークロードと ML ワークロード	生成 AI の分散トレーニング生成 AI の推論不正行為の検出レコメンデーションモデル
ハイパフォーマンスコンピューティング（HPC）	複雑なシミュレーション創薬、タンパク質の折り畳み、ゲノム解析リスク分析と量的取引

ユースケース

サンプルのワークロード