GKE の Ironwood（TPU7x）について

Autopilot Standard

このドキュメントでは、Google Kubernetes Engine（GKE）の Ironwood（TPU7x）の概要について説明します。Ironwood（TPU7x）は、大規模な AI ワークロード用にカスタム設計された Google の第 7 世代 Tensor Processing Unit（TPU）です。前世代の TPU と比較してパフォーマンスが大幅に向上しているため、より大規模で複雑なモデルをトレーニングしてサービングできます。

Ironwood（TPU7x）の特性

Ironwood（TPU7x）には、他の TPU バージョンとは異なる独自の機能が導入されています。これらの機能は、可用性、ノードプールの構成、ワークロードのパフォーマンスに影響します。

基盤となるハードウェアについては、Ironwood（TPU7x）アーキテクチャをご覧ください。

対象

Ironwood（TPU7x）は、バージョン 1.34.0-gke.2201000 以降を実行する GKE Standard クラスタと、バージョン 1.34.1-gke.3084001 以降を実行する Autopilot クラスタで使用できます。

マルチホストノードプールのワークロードポリシー

Ironwood（TPU7x）では、マルチホスト TPU スライスノードプールを作成するときに、ワークロードポリシーを使用して、基盤となるインフラストラクチャの物理的な配置を構成します。ワークロードポリシーを作成し、--placement-policy フラグを使用して適用します。このポリシーは、他の TPU バージョンで使用される --tpu-topology フラグに代わるものです。

ワークロードポリシーは、インフラストラクチャの物理的な配置を構成できるリソースポリシーの一種です。Ironwood（TPU7x）は、高スループット ワークロードポリシーをサポートしています。このポリシーは、TPU VM を同じ場所に配置してネットワークレイテンシを短縮し、ワークロードの停止を最小限に抑えるようにメンテナンス戦略を定義できます。

NUMA バインディング

Ironwood（TPU7x）アーキテクチャには、次の要素が含まれています。

各 Ironwood（TPU7x）仮想マシン（VM）には、4 つのチップと 2 つの NIC が含まれています。
各 VM には 2 つの不均一メモリアクセス（NUMA）ノードが含まれています。
CPU、メモリ、NIC のリソースは 2 つの NUMA ノード間で均等に分割されます。

異なる NUMA ノード間でリソースにアクセスすると（クロス NUMA アクセス）、ワークロードでパフォーマンスのボトルネックが発生する可能性があります。そのため、ワークロードのパフォーマンスを最適化するために、GKE ではマルチコンテナ設定でワークロードをデプロイできます。これにより、各コンテナが特定の NUMA ノード内の CPU、メモリ、TPU リソースにバインドされます。

LLM のリファレンス実装

Ironwood（TPU7x）に大規模言語モデル（LLM）をデプロイする方法については、次のリファレンス実装をご覧ください。クラスタの作成には、次のいずれかのオプションを使用できます。

GKE XPK: Accelerated Processing Kit（XPK）を使用して、GKE クラスタをすばやく作成し、概念実証とテスト用のワークロードを実行します。詳細については、XPK ドキュメントをご覧ください。
GKE on Google Cloud CLI: Google Cloud CLI を使用して、GKE クラスタインスタンスを手動で作成し、既存の GKE 本番環境を正確にカスタマイズまたは拡張します。

LLM	GKE XPK	GKE on Google Cloud CLI
BF16 と `4x4x4` トポロジを使用する Llama 70b	XPK を使用して Ironwood GKE クラスタで llama3.1-70b ワークロードを事前トレーニングする	Kubernetes JobSet を使用して Ironwood GKE クラスタで llama3.1-70b ワークロードを事前トレーニングする
BF16 と `4x4x8` トポロジを使用した DeepSeek	XPK を使用して Ironwood GKE クラスタで deepseek3-671b ワークロードを事前トレーニングする	Kubernetes JobSet を使用して Ironwood GKE クラスタで deepseek3-671b ワークロードを事前トレーニングする
BF16 と `4x4x4` トポロジを使用した GPT-oss-120b	XPK を使用して Ironwood GKE クラスタで gpt-oss-120b ワークロードを事前トレーニングする	Kubernetes JobSet を使用して Ironwood GKE クラスタで gpt-oss-120b ワークロードを事前トレーニングする
BF16 と `4x8x8` トポロジを使用する Qwen3-235b-a22b	XPK を使用して Ironwood GKE クラスタで qwen3-235b-a22b ワークロードを事前トレーニングする	利用不可