このドキュメントでは、Google Kubernetes Engine(GKE)の Ironwood(TPU7x)の概要について説明します。Ironwood(TPU7x)は、大規模な AI ワークロード用にカスタム設計された Google の第 7 世代 Tensor Processing Unit(TPU)です。前世代の TPU と比較してパフォーマンスが大幅に向上しているため、より大規模で複雑なモデルをトレーニングしてサービングできます。
Ironwood(TPU7x)の特性
Ironwood(TPU7x)には、他の TPU バージョンとは異なる独自の機能が導入されています。これらの機能は、可用性、ノードプールの構成、ワークロードのパフォーマンスに影響します。
基盤となるハードウェアについては、Ironwood(TPU7x)アーキテクチャをご覧ください。
対象
Ironwood(TPU7x)は、バージョン 1.34.0-gke.2201000 以降を実行する GKE Standard クラスタと、バージョン 1.34.1-gke.3084001 以降を実行する Autopilot クラスタで使用できます。
マルチホスト ノードプールのワークロード ポリシー
Ironwood(TPU7x)では、マルチホスト TPU スライス ノードプールを作成するときに、ワークロード ポリシーを使用して、基盤となるインフラストラクチャの物理的な配置を構成します。ワークロード ポリシーを作成し、--placement-policy フラグを使用して適用します。このポリシーは、他の TPU バージョンで使用される --tpu-topology フラグに代わるものです。
ワークロード ポリシーは、インフラストラクチャの物理的な配置を構成できるリソース ポリシーの一種です。Ironwood(TPU7x)は、高スループット ワークロード ポリシーをサポートしています。このポリシーは、TPU VM を同じ場所に配置してネットワーク レイテンシを短縮し、ワークロードの停止を最小限に抑えるようにメンテナンス戦略を定義できます。
NUMA バインディング
Ironwood(TPU7x)アーキテクチャには、次の要素が含まれています。
- 各 Ironwood(TPU7x)仮想マシン(VM)には、4 つのチップと 2 つの NIC が含まれています。
- 各 VM には 2 つの 不均一メモリアクセス(NUMA)ノードが含まれています。
- CPU、メモリ、NIC のリソースは 2 つの NUMA ノード間で均等に分割されます。
異なる NUMA ノード間でリソースにアクセスすると(クロス NUMA アクセス)、ワークロードでパフォーマンスのボトルネックが発生する可能性があります。そのため、ワークロードのパフォーマンスを最適化するために、GKE ではマルチコンテナ設定でワークロードをデプロイできます。これにより、各コンテナが特定の NUMA ノード内の CPU、メモリ、TPU リソースにバインドされます。
LLM のリファレンス実装
Ironwood(TPU7x)に大規模言語モデル(LLM)をデプロイする方法については、次のリファレンス実装をご覧ください。クラスタの作成には、次のいずれかのオプションを使用できます。
- GKE XPK: Accelerated Processing Kit(XPK)を使用して、GKE クラスタをすばやく作成し、概念実証とテスト用のワークロードを実行します。詳細については、XPK ドキュメントをご覧ください。
- GKE on Google Cloud CLI: Google Cloud CLI を使用して、GKE クラスタ インスタンスを手動で作成し、既存の GKE 本番環境を正確にカスタマイズまたは拡張します。
| LLM | GKE XPK | GKE on Google Cloud CLI |
|---|---|---|
BF16 と 4x4x4 トポロジを使用する Llama 70b |
XPK を使用して Ironwood GKE クラスタで llama3.1-70b ワークロードを事前トレーニングする | Kubernetes JobSet を使用して Ironwood GKE クラスタで llama3.1-70b ワークロードを事前トレーニングする |
BF16 と 4x4x8 トポロジを使用した DeepSeek |
XPK を使用して Ironwood GKE クラスタで deepseek3-671b ワークロードを事前トレーニングする | Kubernetes JobSet を使用して Ironwood GKE クラスタで deepseek3-671b ワークロードを事前トレーニングする |
BF16 と 4x4x4 トポロジを使用した GPT-oss-120b |
XPK を使用して Ironwood GKE クラスタで gpt-oss-120b ワークロードを事前トレーニングする | Kubernetes JobSet を使用して Ironwood GKE クラスタで gpt-oss-120b ワークロードを事前トレーニングする |
BF16 と 4x8x8 トポロジを使用する Qwen3-235b-a22b |
XPK を使用して Ironwood GKE クラスタで qwen3-235b-a22b ワークロードを事前トレーニングする | 利用不可 |
次のステップ
- GKE で TPU を計画する方法を学習する。
- GKE に TPU をデプロイする方法を確認する。
- Ironwood(TPU7x)のエンドツーエンドのチュートリアルを試す: