Tentang Ironwood (TPU7x) di GKE

Dokumen ini memberikan ringkasan tentang Ironwood (TPU7x) di Google Kubernetes Engine (GKE). Ironwood (TPU7x) adalah Tensor Processing Unit (TPU) generasi ketujuh Google , yang dirancang khusus untuk workload AI berskala besar. TPU ini menawarkan peningkatan performa yang signifikan dibandingkan generasi TPU sebelumnya, yang memungkinkan Anda melatih dan menayangkan model yang lebih besar dan lebih kompleks.

Karakteristik Ironwood (TPU7x)

Ironwood (TPU7x) memperkenalkan fitur unik yang membedakannya dari versi TPU lainnya. Fitur ini memengaruhi ketersediaan, konfigurasi node pool, dan performa workload.

Untuk mengetahui informasi tentang hardware yang mendasarinya, lihat Arsitektur Ironwood (TPU7x).

Ketersediaan

Ironwood (TPU7x) tersedia di cluster GKE Standar yang menjalankan versi 1.34.0-gke.2201000 dan yang lebih baru, serta di cluster Autopilot yang menjalankan versi 1.34.1-gke.3084001 dan yang lebih baru.

Kebijakan workload untuk node pool multi-host

Ironwood (TPU7x) menggunakan kebijakan workload untuk mengonfigurasi penempatan fisik infrastruktur yang mendasarinya saat Anda membuat node pool slice TPU multi-host. Anda membuat kebijakan workload, lalu menerapkannya menggunakan flag --placement-policy. Kebijakan ini menggantikan flag --tpu-topology yang digunakan oleh versi TPU lainnya.

Kebijakan workload adalah jenis kebijakan resource yang memungkinkan Anda mengonfigurasi penempatan fisik infrastruktur. Ironwood (TPU7x) mendukung kebijakan workload Throughput tinggi. Kebijakan ini menempatkan VM TPU secara bersamaan untuk mengurangi latensi jaringan dan memungkinkan Anda menentukan strategi pemeliharaan untuk meminimalkan gangguan workload.

Binding NUMA

Arsitektur Ironwood (TPU7x) mencakup elemen berikut:

  • Setiap virtual machine (VM) Ironwood (TPU7x) berisi empat chip dan dua NIC.
  • Setiap VM berisi dua node Non-Uniform Memory Access (NUMA).
  • Resource CPU, memori, dan NIC dibagi secara merata antara dua node NUMA.

Mengakses resource di berbagai node NUMA (akses lintas NUMA) dapat menyebabkan bottleneck performa dalam workload Anda. Oleh karena itu, untuk mengoptimalkan performa workload, GKE memungkinkan Anda men-deploy workload dalam penyiapan multi-container. Hal ini mengikat setiap container ke resource CPU, memori, dan TPU dalam node NUMA tertentu.

Implementasi referensi LLM

Untuk mempelajari cara men-deploy model bahasa besar (LLM) di Ironwood (TPU7x), lihat implementasi referensi berikut. Anda dapat menggunakan salah satu opsi berikut untuk pembuatan cluster:

  • GKE XPK: gunakan Accelerated Processing Kit (XPK) untuk membuat cluster GKE dengan cepat dan menjalankan workload untuk pembuktian konsep dan pengujian. Untuk mengetahui informasi selengkapnya, lihat dokumentasi XPK.
  • GKE di Google Cloud CLI: gunakan Google Cloud CLI untuk membuat instance cluster GKE secara manual untuk penyesuaian atau perluasan lingkungan GKE produksi yang ada secara presisi.
LLM GKE XPK GKE di Google Cloud CLI
Llama 70b dengan BF16 dan topologi 4x4x4 Latih awal workload llama3.1-70b di cluster GKE Ironwood dengan XPK Latih awal workload llama3.1-70b di cluster GKE Ironwood dengan Kubernetes JobSet
DeepSeek dengan BF16 dan topologi 4x4x8 Latih awal workload deepseek3-671b di cluster GKE Ironwood dengan XPK Latih awal workload deepseek3-671b di cluster GKE Ironwood dengan Kubernetes JobSet
GPT-oss-120b dengan BF16 dan topologi 4x4x4 Latih awal workload gpt-oss-120b di cluster GKE Ironwood dengan XPK Latih awal workload gpt-oss-120b di cluster GKE Ironwood dengan Kubernetes JobSet
Qwen3-235b-a22b dengan BF16 dan topologi 4x8x8 Latih awal workload qwen3-235b-a22b di cluster GKE Ironwood dengan XPK Tidak tersedia

Langkah berikutnya