TPU Cluster Director の概要

TPU Cluster Director は、 Google Cloud AI アクセラレータを予約ベースで直接制御できるように設計されています。Cloud TPU の場合、Cluster Director の基本機能により、マルチテナントオファリングを超えて物理的に分離された TPU 容量を提供する新しいサービス階層が提供されます。

物理的に同じ場所に配置された専用容量: 密度の高い同じ場所に配置された TPU 予約が提供されます。最適なネットワークパフォーマンスとワークロードスケジューリングを実現するためにハードウェアを完全に制御できるようになりました。
高度なメンテナンスと制御: メンテナンスイベントを正確に制御できます。特定の VM、キューブ、Pod、または予約全体をターゲットに設定して、これらのイベントの順序とペースを管理し、ビジネスへの影響を最小限に抑えることができます。
トポロジを認識したスケジューリング: ハードウェアの物理トポロジ、健全性、使用率を完全に把握できるため、パフォーマンス重視のワークロードの配置をよりスマートに行うことができます。

Cluster Director の基盤は Google Kubernetes Engine と完全に統合されています。この統合により、大規模な AI ワークロードを強化するいくつかの機能が提供されます。

効率、フォールトトレランス、復元力の向上 - 要求の厳しい AI タスクに堅牢な環境を提供します。
トポロジを認識したノードプールとワークロードの配置。- 同一の場所にある高密度の予約により、特定の Pod またはキューブをターゲットにできます。ワークロードのスケジュール設定をより細かく行うことができます。

GKE で Cluster Director の基盤を使用すると、ワークロードの使用率、パフォーマンス、スケーラビリティの向上、スループットと信頼性の向上、物理容量（ホストから GKE クラスタまで）の包括的なオブザーバビリティが可能になります。

GKE の TPU Cluster Director の基盤は、新しい All Capacity モードの予約で使用できます。

All Capacity モード

これまで、TPU 容量は「マネージド」モードで提供されていました。このモードでは、Google が障害のある TPU マシンを自動的に置き換えますが、予約容量の一部を保持し、TPU スライスが再起動に必要なリソースを確保できるようにします。Google は、TPU の新しい容量モードとして All Capacity モードを導入しました。この容量モードでは、TPU ハードウェアトポロジ、使用率ステータス、予約済み容量の健全性ステータスを完全に把握できます。予約済みの容量全体にアクセスできますが、障害と計画メンテナンスの管理はお客様の責任となります。

All Capacity モードの主な機能は次のとおりです。

完全な制御と可視性: 予約済み容量を完全に制御し、ハードウェアの健全性とトポロジを完全に可視化できます。これにより、ホールドバックを含むすべての利用可能な容量を確認し、マシンの障害を直接管理できます。
専用容量: AI ワークロードで常に使用できる専用容量にアクセスできます。容量をすべて使用し、ホールドバックがないため、予測可能性が高く、割り当てが増加します。つまり、予約した TPU 容量をすべて使用できます。これで、優先度の低いワークロードを実行するために、ホールドバック容量にもアクセスできるようになりました。
最適化されたパフォーマンス: TPU All Capacity モードでは、大規模で密結合の ML ワークロードと HPC ワークロードに不可欠な、超低レイテンシネットワーキングによる大規模なアクセラレータリソースの緊密な配置が可能になります。このアーキテクチャは、トレーニングワークロードと推論ワークロードの両方でパフォーマンスを最大化するように最適化されています。

サポートされている TPU 世代

TPU の All Capacity モードと機能は、Trillium（tpu v6e）、TPU Ironwood（tpu7x）、および将来の TPU 世代で使用できます。以前の世代の TPU のサポートは予定されていません。

TPU Cluster Director の用語

Cluster Director トポロジのコンセプトは、クラスタ、ブロック、サブブロック、ホストの 4 つのレベルで構成されています。クラスタは Google の物理 TPU 容量のデプロイ単位で、Pod の倍数になります。クラスタ内のすべての TPU 容量が 1 つのゾーン内にあります。All Capacity モードの TPU 予約は、常に 1 つのクラスタ内にあります。TPU の場合、残りのトポロジコンセプトは、次の表に示すように物理コンポーネントにマッピングされます。

Trillium

トポロジのコンセプト	Trillium	コア数	チップ	ホスト
---	チップ	1	1	該当なし
ホスト	ホスト	8	8	1
サブブロック	Trillium Pod	256	256	32
ブロック	1 つの予約に複数の Trillium Pod（最大 16 個）	最大 4,096	最大 4,096	最大 512
---	サブブロックで許可されるスライス	1x1、2x2、2x4、4x4、4x8、8x8、8x16、16x16
---	1 つの予約に複数のブロックを設定できます。各ブロックには 1～16 個の Trillium Pod を設定できます。

Trillium スライスのサイズについて詳しくは、Trillium でサポートされている構成をご覧ください。

Ironwood

トポロジのコンセプト	Ironwood	コア数	チップ	ホスト
---	チップ	2	1	---
ホスト	ホスト	8	4	1
サブブロック	キューブ	128	64	16
ブロック	複数の Ironwood キューブ（最大で 1 つのフル Pod）		最大 9,216（144 個のキューブ）	最大 2,304
---	ブロック内で許可されるスライス: 例	1x1x1、2x2x1、2x2x2、2x4x4、4x4x4、8x8x8、16x8x8、16x16x8、12x24x24（その他多数）
---	予約には、1 つ以上の Ironwood キューブを指定できます（最大で Ironwood Pod 全体）。

Ironwood スライスのサイズについては、TPUv7x でサポートされている構成をご覧ください。