TPU v5p

このドキュメントでは、Cloud TPU v5p のアーキテクチャとサポートされている構成について説明します。

システム アーキテクチャ

このセクションでは、v5p バージョンに固有のシステム アーキテクチャについて説明します。各 TensorCore には、4 つのマトリックス乗算ユニット(MXU)、1 つのベクトル ユニット、1 つのスカラー ユニットがあります。

1 つの v5p Pod に 8,960 個のチップがあります。スケジュールできる最大のジョブは 96 キューブ(6,144 チップ)のジョブです。

次の表に、TPU v5p の主な仕様を示します。

主な仕様 v5p 値
チップあたりのピーク コンピューティング(BF16) 459 TFLOP
HBM2e の容量と帯域幅 95 GB、2,765 Gbps
TPU Pod のサイズ 8,960 チップ
相互接続トポロジ 3D トーラス *
チップ間相互接続(ICI)帯域幅 4,800 Gbps

構成

TPU v5p Pod は、再構成可能な高速リンクで相互接続された 8,960 個のチップで構成されます。TPU v5p の柔軟なネットワーキングでは、さまざまな方法で同じサイズのスライスにチップを接続できます。

次の表に、v5p でサポートされている最も一般的なシングル スライスの形状と、1 キューブより大きいほとんどの(全部ではない)キューブの形状を示します。最大の v5p 形状は 16x16x24(6,144 チップ、96 キューブ)です。

トポロジ コア数 チップ ホスト キューブ twisted のサポート
2x2x1 8 4 1 なし なし
2x2x2 16 8 2 なし なし
2x4x4 64 32 8 なし なし
4x4x4 128 64 16 1 なし
4x4x8 256 128 32 2 あり
4x8x8 512 256 64 4 あり
8x8x8 1024 512 128 8 なし
8x8x16 2048 1024 256 16 あり
8x16x16 4096 2048 512 32 あり
16x16x16 8192 4096 1024 64 なし
16x16x24 12288 6144 1536 96 なし

シングル スライス トレーニングは最大 6,144 チップに対応します。マルチスライスを使用すると、最大 18,432 個のチップにスケールアップできます。マルチスライスの詳細については、Cloud TPU マルチスライスの概要をご覧ください。

Cloud TPU ICI の復元力

ICI の復元力により、キューブ間で TPU を接続する光リンクと光回路スイッチ(OCS)のフォールト トレランスが向上します(キューブ内の ICI 接続は影響を受けない銅リンクを使用しています)。ICI 復元力により、ICI 接続は OCS 障害と光 ICI 障害を回避して経路設定されます。その結果、TPU スライスのスケジューリング可用性が改善されますが、ICI のパフォーマンスが一時的に低下するというトレードオフがあります。

Cloud TPU v4 と同様に、1 キューブ以上の v5p スライス(4x4x4 トポロジ)では、ICI 復元力がデフォルトで有効になります。

VM、ホスト、スライスのプロパティ

プロパティ TPU の値
v5p チップの数 4
vCPU の数 208(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能)
RAM(GB) 448(NUMA バインディングを使用して、クロス NUMA パフォーマンスのペナルティを回避する場合は半分のみ使用可能)
NUMA ノードの数 2
NIC のスループット(Gbps) 200

Pod 内の TensorCore 数、チップ数、ホスト/VM 数、キューブ間の関係:

コア数 チップ ホスト/VM キューブ
ホスト 8 4 1
キューブ(ラック) 128 64 16 1
サポートされている最大のスライス 12288 6144 1536 96
v5p フル Pod 17920 8960 2240 140