TPU7x (Ironwood)
Halaman ini menjelaskan arsitektur dan konfigurasi yang tersedia untuk TPU7x, TPU terbaru yang tersedia di Google Cloud. TPU7x adalah rilis pertama dalam keluarga Ironwood,TPU generasi ketujuh Google Cloud. Generasi Ironwood dirancang untuk pelatihan dan inferensi AI berskala besar.
Dengan footprint 9.216 chip per pod, TPU7x memiliki banyak kesamaan dengan TPU v5p. TPU7x memberikan performa tinggi untuk model MoE dan padat skala besar, prapelatihan, pengambilan sampel, dan inferensi berat dekode.
Untuk menggunakan TPU7x, Anda harus menggunakan Google Kubernetes Engine (GKE). Untuk mengetahui informasi selengkapnya, lihat Tentang TPU di GKE.
Anda juga dapat menggunakan TPU7x dan GKE dengan TPU Cluster Director. Cluster Director TPU tersedia melalui reservasi mode Semua Kapasitas, yang memberi Anda akses penuh ke semua kapasitas yang Anda pesan (tanpa penahanan) dan visibilitas penuh ke topologi hardware TPU, status penggunaan, dan status kondisi. Untuk mengetahui informasi selengkapnya, lihat Ringkasan mode Semua Kapasitas.
Untuk mendapatkan akses ke TPU7x, hubungi tim akun Anda.
Arsitektur sistem
Setiap chip TPU7x berisi dua TensorCore dan empat SparseCore. Tabel berikut menunjukkan spesifikasi utama dan nilainya untuk TPU7x dibandingkan dengan generasi sebelumnya.
| Spesifikasi | v5p | v6e (Trillium) | TPU7x (Ironwood) |
|---|---|---|---|
| Jumlah chip per pod | 8960 | 256 | 9216 |
| Komputasi puncak per chip (BF16) (TFLOP) | 459 | 918 | 2307 |
| Komputasi puncak per chip (FP8) (TFLOP) | 459 | 918 | 4614 |
| Kapasitas HBM per chip (GiB) | 95 | 32 | 192 |
| Bandwidth HBM per chip (GB/dtk) | 2765 | 1638 | 7380 |
| Jumlah vCPU (VM 4 chip) | 208 | 180 | 224 |
| RAM (GB) (VM 4 chip) | 448 | 720 | 960 |
| Jumlah TensorCore per chip | 2 | 1 | 2 |
| Jumlah SparseCore per chip | 4 | 2 | 4 |
| Bandwidth interkoneksi antar-chip (ICI) dua arah per chip (GB/dtk) | 1200 | 800 | 1200 |
| Bandwidth jaringan pusat data (DCN) per chip (Gb/s) | 50 | 100 | 100 |
Diagram berikut mengilustrasikan arsitektur Ironwood:

Arsitektur chiplet ganda
Model pemrograman Ironwood memungkinkan Anda mengakses dua perangkat TPU, bukan arsitektur inti logis tunggal (juga dikenal sebagai MegaCore) yang digunakan pada generasi sebelumnya (TPU v4 dan v5p). Perubahan ini meningkatkan efektivitas biaya dan efisiensi pembuatan chip. Meskipun hal ini merupakan perubahan arsitektur, desain baru memastikan Anda dapat menggunakan kembali model software yang ada dengan perubahan minimal.
TPU Ironwood terdiri dari dua chiplet yang berbeda. Hal ini berbeda dengan ruang memori terpadu arsitektur MegaCore.
Komposisi chiplet: Setiap chiplet adalah unit mandiri dengan satu TensorCore, dua SparseCore, dan memori bandwidth tinggi (HBM) 96 GB.
Interkoneksi berkecepatan tinggi: Kedua chiplet terhubung oleh antarmuka die-to-die (D2D) yang enam kali lebih cepat daripada link interkoneksi antar-chip (ICI) 1D. Komunikasi antar-chiplet dikelola menggunakan operasi kolektif.
Eksposur model dan framework pemrograman
Model pemrograman untuk Ironwood serupa dengan model pemrograman generasi TPU yang lebih awal dari v4, seperti TPU v3. Arsitektur baru ini diekspos dengan cara berikut:
Dua perangkat per chip: Framework seperti JAX mengekspos setiap chip Ironwood sebagai dua "perangkat" terpisah, satu untuk setiap chiplet.
Topologi 4D: JAX menambahkan dimensi keempat ke topologi untuk menentukan perangkat on-chip mana yang akan digunakan. Dengan begitu, Anda dapat menggunakan model software yang ada dengan sedikit modifikasi.
Untuk mengetahui informasi selengkapnya tentang cara mencapai performa optimal dengan arsitektur dual-chiplet, lihat Rekomendasi performa untuk arsitektur dual-chiplet Ironwood
Konfigurasi yang didukung
Chip TPU7x memiliki koneksi langsung ke chip tetangga terdekat dalam 3 dimensi, sehingga menghasilkan mesh 3D dari koneksi jaringan. Slice yang lebih besar dari 64 chip terdiri dari satu atau beberapa "kubus" chip 4x4x4.
Tabel berikut menunjukkan bentuk irisan 3D umum yang didukung untuk TPU7x:
| Topologi | Chip TPU | Host | VM | Kubus | Cakupan |
|---|---|---|---|---|---|
| 2x2x1 | 4 | 1 | 1 | 1/16 | Host tunggal |
| 2x2x2 | 8 | 2 | 2 | 1/8 | Multi-host |
| 2x2x4 | 16 | 4 | 4 | 1/4 | Multi-host |
| 2x4x4 | 32 | 8 | 8 | 1/2 | Multi-host |
| 4x4x4 | 64 | 16 | 16 | 1 | Multi-host |
| 4x4x8 | 128 | 32 | 32 | 2 | Multi-host |
| 4x8x8 | 256 | 64 | 64 | 4 | Multi-host |
| 8x8x8 | 512 | 128 | 128 | 8 | Multi-host |
| 8x8x16 | 1024 | 256 | 256 | 16 | Multi-host |
| 8x16x16 | 2048 | 512 | 512 | 32 | Multi-host |
VM TPU7x
Setiap virtual machine (VM) TPU7x berisi 4 chip. Setiap VM memiliki akses ke dua node NUMA. Untuk mengetahui informasi selengkapnya tentang NUMA node, lihat Non-uniform memory access di Wikipedia.
Semua slice TPU7x menggunakan VM 4 chip host penuh. Spesifikasi teknis untuk VM TPU7x adalah:
- Jumlah vCPU per VM: 224
- RAM per VM: 960 GB
- Jumlah node NUMA per VM: 2
Hyperdisk
Secara default, disk boot VM untuk TPU7x adalah Hyperdisk Balanced. Anda dapat memasang disk Hyperdisk Seimbang tambahan ke VM TPU untuk penyimpanan tambahan.
Untuk mengetahui informasi selengkapnya tentang Hyperdisk, lihat Ringkasan Hyperdisk. Untuk mengetahui informasi selengkapnya tentang opsi penyimpanan untuk Cloud TPU, lihat Opsi penyimpanan untuk data Cloud TPU.
Langkah berikutnya
- Menggunakan TPU7x dengan GKE
- Menggunakan TPU7x dengan TPU Cluster Director
- Gunakan platform Diagnostik ML Google Cloud untuk mengoptimalkan dan mendiagnosis workload Anda
- Menjalankan workload pelatihan menggunakan resep yang dioptimalkan untuk TPU7x
- Menjalankan microbenchmark TPU7x