TPU v5p

Dokumen ini menjelaskan arsitektur dan konfigurasi yang didukung Cloud TPU v5p.

Arsitektur sistem

Bagian ini menjelaskan arsitektur sistem khusus untuk versi v5p. Setiap TensorCore memiliki empat Unit Perkalian Matriks (MXU), satu unit vektor, dan satu unit skalar.

Ada 8.960 chip dalam Pod v5p. Tugas terbesar yang dapat dijadwalkan adalah tugas 96 kubus (6144 chip).

Tabel berikut menunjukkan spesifikasi utama untuk TPU v5p.

Spesifikasi Nilai
Jumlah chip per pod 8960
Komputasi puncak per chip (BF16) (TFLOPs) 459
Komputasi puncak per chip (FP8) (TFLOPs) 459
Kapasitas HBM per chip (GiB) 95
Bandwidth HBM per chip (GBps) 2765
Jumlah vCPU (VM 4 chip) 208
RAM (GB) (VM 4 chip) 448
Jumlah TensorCore per chip 2
Jumlah SparseCore per chip 4
Bandwidth interkoneksi antar-chip (ICI) dua arah per chip (GBps) 1200
Bandwidth jaringan pusat data (DCN) per chip (Gbps) 50
Topologi Interconnect Torus 3D *

Konfigurasi

Pod TPU v5p terdiri dari 8.960 chip yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip dalam slice berukuran sama dengan berbagai cara.

Tabel berikut menunjukkan bentuk irisan tunggal paling umum yang didukung dengan v5p, serta sebagian besar (tetapi tidak semua) bentuk kubus penuh yang lebih besar dari 1 kubus. Bentuk v5p maksimum adalah 16x16x24 (6144 chip, 96 kubus).

Topologi Cores Chip Host Kubus Mendukung twisted?
2x2x1 8 4 1 T/A T/A
2x2x2 16 8 2 T/A T/A
2x4x4 64 32 8 T/A T/A
4x4x4 128 64 16 1 T/A
4x4x8 256 128 32 2 Ya
4x8x8 512 256 64 4 Ya
8x8x8 1024 512 128 8 T/A
8x8x16 2048 1024 256 16 Ya
8x16x16 4096 2048 512 32 Ya
16x16x16 8192 4096 1024 64 T/A
16x16x24 12288 6144 1536 96 T/A

Pelatihan slice tunggal didukung hingga 6.144 chip. Anda dapat menskalakan hingga 18.432 chip menggunakan Multislice. Untuk mengetahui informasi selengkapnya tentang Multislice, lihat Ringkasan Multislice Cloud TPU.

Resiliensi ICI Cloud TPU

Ketahanan ICI membantu meningkatkan toleransi kesalahan link optik dan switch sirkuit optik (OCS) yang menghubungkan TPU antar-kubus. (Koneksi ICI dalam kubus menggunakan link tembaga yang tidak terpengaruh). Ketahanan ICI memungkinkan koneksi ICI dialihkan di sekitar OCS dan kesalahan ICI optik. Akibatnya, hal ini meningkatkan ketersediaan penjadwalan slice TPU, dengan penurunan performa ICI sementara sebagai imbasnya.

Serupa dengan Cloud TPU v4, resiliensi ICI diaktifkan secara default untuk slice v5p yang berukuran satu kubus atau lebih besar (topologi 4x4x4).

Properti VM, host, dan slice

Properti Nilai dalam TPU
# chip v5p 4
Jumlah vCPU 208 (hanya setengah yang dapat digunakan jika menggunakan pengikatan NUMA untuk menghindari penalti performa lintas-NUMA)
RAM (GB) 448 (hanya setengah yang dapat digunakan jika menggunakan pengikatan NUMA untuk menghindari penalti performa lintas-NUMA)
# node NUMA 2
Throughput NIC (Gbps) 200

Hubungan antara jumlah TensorCore, chip, host/VM, dan kubus dalam Pod:

Cores Chip Host/VM Kubus
Host 8 4 1
Cube (rak) 128 64 16 1
Slice terbesar yang didukung 12288 6144 1536 96
Pod lengkap v5p 17920 8960 2240 140