TPU v5p
Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5p.
Arsitektur sistem
Bagian ini menjelaskan arsitektur sistem khusus untuk versi v5p. Setiap TensorCore memiliki empat Unit Perkalian Matriks (MXU), unit vektor, dan unit skalar.
Ada 8.960 chip dalam Pod v5p. Tugas terbesar yang dapat dijadwalkan adalah tugas 96 kubus (6144 chip).
Tabel berikut menunjukkan spesifikasi utama untuk TPU v5p.
| Spesifikasi utama | Nilai v5p |
|---|---|
| Komputasi puncak per chip (BF16) | 459 TFLOP |
| Kapasitas dan bandwidth HBM2e | 95 GB, 2765 GBps |
| Ukuran Pod TPU | 8.960 chip |
| Topologi Interconnect | Torus 3D * |
| Bandwidth interkoneksi antar-chip (ICI) | 4.800 Gbps |
Konfigurasi
Pod TPU v5p terdiri dari 8.960 chip yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip dalam slice berukuran sama dengan berbagai cara.
Tabel berikut menunjukkan bentuk irisan tunggal paling umum yang didukung dengan v5p, serta sebagian besar (tetapi tidak semua) bentuk kubus penuh yang lebih besar dari 1 kubus. Bentuk v5p maksimum adalah 16x16x24 (6144 chip, 96 kubus).
| Topologi | Cores | Chip | Host | Kubus | Mendukung tampilan miring? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | T/A | T/A |
| 2x2x2 | 16 | 8 | 2 | T/A | T/A |
| 2x4x4 | 64 | 32 | 8 | T/A | T/A |
| 4x4x4 | 128 | 64 | 16 | 1 | T/A |
| 4x4x8 | 256 | 128 | 32 | 2 | Ya |
| 4x8x8 | 512 | 256 | 64 | 4 | Ya |
| 8x8x8 | 1024 | 512 | 128 | 8 | T/A |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Ya |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Ya |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | T/A |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | T/A |
Pelatihan slice tunggal didukung hingga 6.144 chip. Anda dapat menskalakan hingga 18.432 chip menggunakan Multislice. Untuk mengetahui informasi selengkapnya tentang Multislice, lihat Ringkasan Cloud TPU Multislice.
Ketahanan ICI Cloud TPU
Ketahanan ICI membantu meningkatkan toleransi kesalahan link optik dan switch sirkuit optik (OCS) yang menghubungkan TPU antar-kubus. (Koneksi ICI dalam kubus menggunakan link tembaga yang tidak terpengaruh). Ketahanan ICI memungkinkan koneksi ICI dirutekan di sekitar OCS dan kesalahan ICI optik. Akibatnya, hal ini meningkatkan ketersediaan penjadwalan slice TPU, dengan penurunan performa ICI sementara sebagai gantinya.
Mirip dengan Cloud TPU v4, ketahanan ICI diaktifkan secara default untuk slice v5p yang berukuran satu kubus atau lebih besar (topologi 4x4x4).
Properti VM, host, dan slice
| Properti | Nilai dalam TPU |
|---|---|
| # chip v5p | 4 |
| Jumlah vCPU | 208 (hanya setengah yang dapat digunakan jika menggunakan pengikatan NUMA untuk menghindari penalti performa lintas-NUMA) |
| RAM (GB) | 448 (hanya setengah yang dapat digunakan jika menggunakan pengikatan NUMA untuk menghindari penalti performa lintas-NUMA) |
| # node NUMA | 2 |
| Throughput NIC (Gbps) | 200 |
Hubungan antara jumlah TensorCore, chip, host/VM, dan kubus dalam Pod:
| Cores | Chip | Host/VM | Kubus | |
|---|---|---|---|---|
| Host | 8 | 4 | 1 | |
| Cube (rak) | 128 | 64 | 16 | 1 |
| Slice terbesar yang didukung | 12288 | 6144 | 1536 | 96 |
| Pod lengkap v5p | 17920 | 8960 | 2240 | 140 |