TPU7x (Ironwood)

Halaman ini menjelaskan arsitektur dan konfigurasi yang tersedia untuk TPU7x, TPU terbaru yang tersedia di Google Cloud. TPU7x adalah rilis pertama dalam keluarga Ironwood,TPU generasi ketujuh Google Cloud. Generasi Ironwood dirancang untuk pelatihan dan inferensi AI berskala besar.

Dengan footprint 9.216 chip per pod, TPU7x memiliki banyak kesamaan dengan TPU v5p. TPU7x memberikan performa tinggi untuk model MoE dan padat skala besar, prapelatihan, pengambilan sampel, dan inferensi berat dekode.

Untuk menggunakan TPU7x, Anda harus menggunakan Google Kubernetes Engine (GKE). Untuk mengetahui informasi selengkapnya, lihat Tentang TPU di GKE.

Anda juga dapat menggunakan TPU7x dan GKE dengan TPU Cluster Director. Cluster Director TPU tersedia melalui reservasi mode Semua Kapasitas, yang memberi Anda akses penuh ke semua kapasitas yang Anda pesan (tanpa penahanan) dan visibilitas penuh ke topologi hardware TPU, status penggunaan, dan status kondisi. Untuk mengetahui informasi selengkapnya, lihat Ringkasan mode Semua Kapasitas.

Untuk mendapatkan akses ke TPU7x, hubungi tim akun Anda.

Arsitektur sistem

Setiap chip TPU7x berisi dua TensorCore dan empat SparseCore. Tabel berikut menunjukkan spesifikasi utama dan nilainya untuk TPU7x dibandingkan dengan generasi sebelumnya.

Spesifikasi v5p v6e (Trillium) TPU7x (Ironwood)
Jumlah chip per pod 8960 256 9216
Komputasi puncak per chip (BF16) (TFLOP) 459 918 2307
Komputasi puncak per chip (FP8) (TFLOP) 459 918 4614
Kapasitas HBM per chip (GiB) 95 32 192
Bandwidth HBM per chip (GB/dtk) 2765 1638 7380
Jumlah vCPU (VM 4 chip) 208 180 224
RAM (GB) (VM 4 chip) 448 720 960
Jumlah TensorCore per chip 2 1 2
Jumlah SparseCore per chip 4 2 4
Bandwidth interkoneksi antar-chip (ICI) dua arah per chip (GB/dtk) 1200 800 1200
Bandwidth jaringan pusat data (DCN) per chip (Gb/s) 50 100 100

Diagram berikut mengilustrasikan arsitektur Ironwood:

Diagram arsitektur Ironwood

Arsitektur chiplet ganda

Model pemrograman Ironwood memungkinkan Anda mengakses dua perangkat TPU, bukan arsitektur inti logis tunggal (juga dikenal sebagai MegaCore) yang digunakan pada generasi sebelumnya (TPU v4 dan v5p). Perubahan ini meningkatkan efektivitas biaya dan efisiensi pembuatan chip. Meskipun hal ini merupakan perubahan arsitektur, desain baru memastikan Anda dapat menggunakan kembali model software yang ada dengan perubahan minimal.

TPU Ironwood terdiri dari dua chiplet yang berbeda. Hal ini berbeda dengan ruang memori terpadu arsitektur MegaCore.

  • Komposisi chiplet: Setiap chiplet adalah unit mandiri dengan satu TensorCore, dua SparseCore, dan memori bandwidth tinggi (HBM) 96 GB.

  • Interkoneksi berkecepatan tinggi: Kedua chiplet terhubung oleh antarmuka die-to-die (D2D) yang enam kali lebih cepat daripada link interkoneksi antar-chip (ICI) 1D. Komunikasi antar-chiplet dikelola menggunakan operasi kolektif.

Eksposur model dan framework pemrograman

Model pemrograman untuk Ironwood serupa dengan model pemrograman generasi TPU yang lebih awal dari v4, seperti TPU v3. Arsitektur baru ini diekspos dengan cara berikut:

  • Dua perangkat per chip: Framework seperti JAX mengekspos setiap chip Ironwood sebagai dua "perangkat" terpisah, satu untuk setiap chiplet.

  • Topologi 4D: JAX menambahkan dimensi keempat ke topologi untuk menentukan perangkat on-chip mana yang akan digunakan. Dengan begitu, Anda dapat menggunakan model software yang ada dengan sedikit modifikasi.

Untuk mengetahui informasi selengkapnya tentang cara mencapai performa optimal dengan arsitektur dual-chiplet, lihat Rekomendasi performa untuk arsitektur dual-chiplet Ironwood

Konfigurasi yang didukung

Chip TPU7x memiliki koneksi langsung ke chip tetangga terdekat dalam 3 dimensi, sehingga menghasilkan mesh 3D dari koneksi jaringan. Slice yang lebih besar dari 64 chip terdiri dari satu atau beberapa "kubus" chip 4x4x4.

Tabel berikut menunjukkan bentuk irisan 3D umum yang didukung untuk TPU7x:

Topologi Chip TPU Host VM Kubus Cakupan
2x2x1 4 1 1 1/16 Host tunggal
2x2x2 8 2 2 1/8 Multi-host
2x2x4 16 4 4 1/4 Multi-host
2x4x4 32 8 8 1/2 Multi-host
4x4x4 64 16 16 1 Multi-host
4x4x8 128 32 32 2 Multi-host
4x8x8 256 64 64 4 Multi-host
8x8x8 512 128 128 8 Multi-host
8x8x16 1024 256 256 16 Multi-host
8x16x16 2048 512 512 32 Multi-host

VM TPU7x

Setiap virtual machine (VM) TPU7x berisi 4 chip. Setiap VM memiliki akses ke dua node NUMA. Untuk mengetahui informasi selengkapnya tentang NUMA node, lihat Non-uniform memory access di Wikipedia.

Semua slice TPU7x menggunakan VM 4 chip host penuh. Spesifikasi teknis untuk VM TPU7x adalah:

  • Jumlah vCPU per VM: 224
  • RAM per VM: 960 GB
  • Jumlah node NUMA per VM: 2

Hyperdisk

Secara default, disk boot VM untuk TPU7x adalah Hyperdisk Balanced. Anda dapat memasang disk Hyperdisk Seimbang tambahan ke VM TPU untuk penyimpanan tambahan.

Untuk mengetahui informasi selengkapnya tentang Hyperdisk, lihat Ringkasan Hyperdisk. Untuk mengetahui informasi selengkapnya tentang opsi penyimpanan untuk Cloud TPU, lihat Opsi penyimpanan untuk data Cloud TPU.

Langkah berikutnya