Tentang Ironwood (TPU7x) di GKE

Dokumen ini memberikan ringkasan Ironwood (TPU7x) di Google Kubernetes Engine (GKE). Ironwood (TPU7x) adalah Tensor Processing Unit (TPU) generasi ketujuh Google, yang dirancang khusus untuk beban kerja AI berskala besar. TPU ini menawarkan peningkatan performa yang signifikan dibandingkan generasi TPU sebelumnya, sehingga Anda dapat melatih dan menyajikan model yang lebih besar dan lebih kompleks.

Karakteristik Ironwood (TPU7x)

Ironwood (TPU7x) memperkenalkan fitur unik yang membedakannya dari versi TPU lainnya. Fitur ini memengaruhi ketersediaan, konfigurasi node pool, dan performa workload.

Untuk mengetahui informasi tentang hardware yang mendasarinya, lihat Arsitektur Ironwood (TPU7x).

Ketersediaan

Ironwood (TPU7x) tersedia di cluster Standard GKE yang menjalankan versi 1.34.0-gke.2201000 dan yang lebih baru, serta di cluster Autopilot yang menjalankan versi 1.34.1-gke.3084001 dan yang lebih baru.

Kebijakan workload untuk node pool multi-host

Ironwood (TPU7x) menggunakan kebijakan beban kerja untuk mengonfigurasi penempatan fisik infrastruktur yang mendasarinya saat Anda membuat node pool slice TPU multi-host. Anda membuat kebijakan beban kerja, lalu menerapkannya menggunakan flag --placement-policy. Kebijakan ini menggantikan tanda --tpu-topology yang digunakan oleh versi TPU lainnya.

Kebijakan workload adalah jenis kebijakan resource yang memungkinkan Anda mengonfigurasi penempatan fisik infrastruktur. Ironwood (TPU7x) mendukung kebijakan workload Throughput tinggi. Kebijakan ini menempatkan VM TPU secara bersamaan untuk mengurangi latensi jaringan dan memungkinkan Anda menentukan strategi pemeliharaan untuk meminimalkan gangguan workload.

Binding NUMA

Arsitektur Ironwood (TPU7x) mencakup elemen berikut:

  • Setiap virtual machine (VM) Ironwood (TPU7x) berisi empat chip dan dua NIC.
  • Setiap VM berisi dua node Non-Uniform Memory Access (NUMA).
  • Resource CPU, memori, dan NIC dibagi secara merata di antara dua node NUMA.

Mengakses resource di berbagai node NUMA (akses lintas NUMA) dapat menyebabkan hambatan performa dalam workload Anda. Oleh karena itu, untuk mengoptimalkan performa workload, GKE memungkinkan Anda men-deploy workload dalam penyiapan multi-container. Hal ini mengikat setiap container ke resource CPU, memori, dan TPU dalam node NUMA tertentu.

Implementasi referensi LLM

Untuk mempelajari cara men-deploy model bahasa besar (LLM) di Ironwood (TPU7x), lihat implementasi referensi berikut. Anda dapat menggunakan salah satu opsi berikut untuk pembuatan cluster:

  • GKE XPK: gunakan Accelerated Processing Kit (XPK) untuk membuat cluster GKE dengan cepat dan menjalankan workload untuk proof-of-concept dan pengujian. Untuk mengetahui informasi selengkapnya, lihat dokumentasi XPK.
  • GKE di Google Cloud CLI: gunakan Google Cloud CLI untuk membuat instance cluster GKE secara manual guna menyesuaikan atau memperluas lingkungan GKE produksi yang ada secara presisi.
LLM XPK GKE GKE di Google Cloud CLI
Llama 70b dengan BF16 dan topologi 4x4x4 Melakukan pra-pelatihan workload llama3.1-70b di cluster GKE Ironwood dengan XPK Melakukan pra-pelatihan workload llama3.1-70b di cluster GKE Ironwood dengan Kubernetes JobSet
DeepSeek dengan BF16 dan topologi 4x4x8 Melakukan pra-pelatihan workload deepseek3-671b di cluster GKE Ironwood dengan XPK Melakukan pra-pelatihan workload deepseek3-671b di cluster GKE Ironwood dengan Kubernetes JobSet
GPT-oss-120b dengan BF16 dan topologi 4x4x4 Pretrain gpt-oss-120b workload on Ironwood GKE clusters with XPK Melakukan pra-pelatihan beban kerja gpt-oss-120b di cluster GKE Ironwood dengan Kubernetes JobSet
Qwen3-235b-a22b dengan BF16 dan topologi 4x8x8 Melakukan pra-pelatihan workload qwen3-235b-a22b di cluster GKE Ironwood dengan XPK Tidak tersedia

Langkah berikutnya