Dokumen ini memberikan ringkasan tentang Ironwood (TPU7x) di Google Kubernetes Engine (GKE). Ironwood (TPU7x) adalah Tensor Processing Unit (TPU) generasi ketujuh Google , yang dirancang khusus untuk workload AI berskala besar. TPU ini menawarkan peningkatan performa yang signifikan dibandingkan generasi TPU sebelumnya, yang memungkinkan Anda melatih dan menayangkan model yang lebih besar dan lebih kompleks.
Karakteristik Ironwood (TPU7x)
Ironwood (TPU7x) memperkenalkan fitur unik yang membedakannya dari versi TPU lainnya. Fitur ini memengaruhi ketersediaan, konfigurasi node pool, dan performa workload.
Untuk mengetahui informasi tentang hardware yang mendasarinya, lihat Arsitektur Ironwood (TPU7x).
Ketersediaan
Ironwood (TPU7x) tersedia di cluster GKE Standar yang menjalankan versi 1.34.0-gke.2201000 dan yang lebih baru, serta di cluster Autopilot yang menjalankan versi 1.34.1-gke.3084001 dan yang lebih baru.
Kebijakan workload untuk node pool multi-host
Ironwood (TPU7x) menggunakan kebijakan
workload untuk
mengonfigurasi penempatan fisik infrastruktur yang mendasarinya saat Anda
membuat node pool slice TPU multi-host. Anda membuat kebijakan workload, lalu menerapkannya menggunakan flag --placement-policy. Kebijakan ini menggantikan flag --tpu-topology yang digunakan oleh versi TPU lainnya.
Kebijakan workload adalah jenis kebijakan resource yang memungkinkan Anda mengonfigurasi penempatan fisik infrastruktur. Ironwood (TPU7x) mendukung kebijakan workload Throughput tinggi. Kebijakan ini menempatkan VM TPU secara bersamaan untuk mengurangi latensi jaringan dan memungkinkan Anda menentukan strategi pemeliharaan untuk meminimalkan gangguan workload.
Binding NUMA
Arsitektur Ironwood (TPU7x) mencakup elemen berikut:
- Setiap virtual machine (VM) Ironwood (TPU7x) berisi empat chip dan dua NIC.
- Setiap VM berisi dua node Non-Uniform Memory Access (NUMA).
- Resource CPU, memori, dan NIC dibagi secara merata antara dua node NUMA.
Mengakses resource di berbagai node NUMA (akses lintas NUMA) dapat menyebabkan bottleneck performa dalam workload Anda. Oleh karena itu, untuk mengoptimalkan performa workload, GKE memungkinkan Anda men-deploy workload dalam penyiapan multi-container. Hal ini mengikat setiap container ke resource CPU, memori, dan TPU dalam node NUMA tertentu.
Implementasi referensi LLM
Untuk mempelajari cara men-deploy model bahasa besar (LLM) di Ironwood (TPU7x), lihat implementasi referensi berikut. Anda dapat menggunakan salah satu opsi berikut untuk pembuatan cluster:
- GKE XPK: gunakan Accelerated Processing Kit (XPK) untuk membuat cluster GKE dengan cepat dan menjalankan workload untuk pembuktian konsep dan pengujian. Untuk mengetahui informasi selengkapnya, lihat dokumentasi XPK.
- GKE di Google Cloud CLI: gunakan Google Cloud CLI untuk membuat instance cluster GKE secara manual untuk penyesuaian atau perluasan lingkungan GKE produksi yang ada secara presisi.
| LLM | GKE XPK | GKE di Google Cloud CLI |
|---|---|---|
Llama 70b dengan BF16 dan topologi 4x4x4 |
Latih awal workload llama3.1-70b di cluster GKE Ironwood dengan XPK | Latih awal workload llama3.1-70b di cluster GKE Ironwood dengan Kubernetes JobSet |
DeepSeek dengan BF16 dan topologi 4x4x8 |
Latih awal workload deepseek3-671b di cluster GKE Ironwood dengan XPK | Latih awal workload deepseek3-671b di cluster GKE Ironwood dengan Kubernetes JobSet |
GPT-oss-120b dengan BF16 dan topologi 4x4x4 |
Latih awal workload gpt-oss-120b di cluster GKE Ironwood dengan XPK | Latih awal workload gpt-oss-120b di cluster GKE Ironwood dengan Kubernetes JobSet |
Qwen3-235b-a22b dengan BF16 dan topologi 4x8x8 |
Latih awal workload qwen3-235b-a22b di cluster GKE Ironwood dengan XPK | Tidak tersedia |
Langkah berikutnya
- Pelajari cara merencanakan TPU di GKE.
- Pelajari cara men-deploy TPU di GKE.
- Coba tutorial menyeluruh untuk Ironwood (TPU7x):
- Menjalankan workload pelatihan dengan Ironwood (TPU7x) dan reservasi menggunakan Cloud Storage
- Menjalankan workload pelatihan dengan Ironwood (TPU7x) dengan flex-start menggunakan penyimpanan Filestore
- Menjalankan workload pelatihan dengan Ironwood (TPU7x) dan flex-start menggunakan penyimpanan Lustre