Mesin TPU dalam kelompok mesin yang dioptimalkan akselerator

Dokumen ini menjelaskan instance Compute Engine dalam kelompok mesin yang dioptimalkan untuk akselerator yang memiliki Unit Pemrosesan Tensor (TPU). TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan secara khusus oleh Google dan dioptimalkan secara khusus untuk workload kecerdasan buatan (AI) dan machine learning (ML).

Compute Engine mendukung versi TPU berikut:

  • TPU7x
  • TPU v6e
  • TPU v5p

Setiap jenis mesin dalam suatu versi memiliki topologi tertentu dan sejumlah chip TPU yang terpasang.

Dasar-dasar arsitektur TPU

Memahami dasar-dasar arsitektur TPU membantu Anda memilih versi dan jenis mesin TPU untuk workload Anda.

  • Chip TPU: Chip TPU adalah akselerator khusus yang didesain oleh Google untuk machine learning. Setiap chip TPU berisi satu atau beberapa TensorCore untuk menangani operasi matriks yang sangat besar. Setiap TensorCore terdiri dari satu atau beberapa unit perkalian matriks (MXU), yang menggunakan arsitektur array sistolik untuk melakukan ribuan operasi multiply-accumulate per siklus tanpa akses memori konstan. Meskipun terutama digunakan untuk pemrosesan matriks berkecepatan tinggi, chip TPU juga mencakup unit vektor dan skalar untuk komputasi umum dan operasi alur kontrol.

  • Pod TPU: Pod TPU adalah serangkaian TPU yang berdekatan dan dikelompokkan bersama melalui jaringan khusus. Jumlah TPU chip dalam Pod TPU bergantung pada versi TPU.

  • VM TPU: VM TPU adalah mesin virtual Linux yang berjalan di host TPU dan memiliki akses ke TPU yang mendasarinya. Anda dapat terhubung langsung ke VM TPU menggunakan SSH. Anda memiliki akses root ke VM, sehingga Anda dapat menjalankan kode arbitrer. Anda dapat mengakses log debug dan pesan error compiler dan runtime.

  • Slice TPU: Grup logis chip TPU yang saling terhubung, yang diakses melalui satu atau beberapa VM TPU. Slice memiliki salah satu cakupan berikut:

    • Slice host tunggal: Slice yang terdiri dari satu mesin host. Secara umum, ini dipetakan ke satu VM TPU.
    • Slice multi-host: Slice yang terdiri dari beberapa VM TPU yang saling terhubung menggunakan interkoneksi antar-chip (ICI) berkecepatan tinggi.
  • Kubus TPU: Topologi 4x4x4 dari chip TPU yang saling terhubung. Kubus ini hanya berlaku untuk topologi 3D.

  • SparseCore: SparseCore adalah pemroses aliran data yang mempercepat model menggunakan operasi sparse. Kasus penggunaan utama adalah mempercepat model rekomendasi, yang sangat bergantung pada embedding.

  • Versi TPU: Arsitektur chip TPU yang tepat bergantung pada versi TPU yang Anda gunakan. Setiap versi TPU juga mendukung ukuran dan konfigurasi slice yang berbeda.

Untuk mengetahui informasi tentang cara kerja TPU, lihat dokumen Arsitektur TPU di dokumentasi Cloud TPU.

Versi TPU yang direkomendasikan menurut jenis workload

Versi TPU Jenis workload utama
TPU7x (Ironwood)
  • Model padat dan Mixture-of-Experts (MoE) skala besar
  • Pra-pelatihan intensif untuk model dasar yang besar
  • Sampling dan inferensi berat decoding
TPU v6e (Trillium)
  • Pelatihan & fine-tuning (Transformers, CNN)
  • Inferensi skala besar (Gemma 2, Llama, model Difusi)
  • Mesin pemberi saran dan personalisasi (menggunakan SparseCore)
TPU v5p
  • Performa tertinggi untuk pelatihan model dasar skala besar
  • Pelatihan AI multimodal berskala besar
  • Beban kerja dengan embedding padat seperti sistem rekomendasi besar

Opsi pemakaian

Untuk mengoptimalkan pemanfaatan resource dan biaya sekaligus menyeimbangkan performa workload, Compute Engine mendukung opsi penggunaan TPU berikut:

  • On-demand: untuk menggunakan TPU tanpa mengatur kapasitas terlebih dahulu. Sebelum meminta resource, Anda harus memiliki kuota sesuai permintaan yang cukup untuk jenis dan jumlah VM TPU tertentu. Sesuai permintaan adalah opsi penggunaan yang paling fleksibel; namun, tidak ada jaminan bahwa sumber daya sesuai permintaan yang tersedia akan cukup untuk memenuhi permintaan Anda.

  • Spot VM: untuk menyediakan Spot VM, Anda bisa mendapatkan diskon yang signifikan, tetapi Spot VM dapat di-preempt kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Tentang Spot VM.

  • Flex-start: untuk menyediakan VM Flex-start hingga tujuh hari, dengan Compute Engine yang secara otomatis mengalokasikan hardware berdasarkan upaya terbaik berdasarkan ketersediaan. Untuk mengetahui informasi selengkapnya, lihat Tentang VM mulai fleksibel.

  • Pemesanan untuk masa mendatang: untuk meminta pemesanan untuk masa mendatang selama satu tahun atau lebih. Untuk mengetahui informasi selengkapnya, lihat Meminta pemesanan untuk masa mendatang selama satu tahun atau lebih dalam dokumentasi Cloud TPU.

  • Pemesanan untuk masa mendatang dalam mode kalender: untuk menyediakan resource TPU hingga 90 hari, untuk jangka waktu tertentu. Untuk mengetahui informasi selengkapnya, lihat Tentang permintaan pemesanan untuk masa mendatang dalam mode kalender.

Sesuai permintaan adalah model pemakaian default untuk TPU jika Anda tidak menentukan opsi lain.

Untuk mengetahui informasi tentang model penyediaan pokok yang memungkinkan opsi penggunaan, lihat Tentang model penyediaan VM.

Ketersediaan opsi pemakaian menurut versi TPU

Tabel berikut merangkum ketersediaan setiap opsi penggunaan menurut versi TPU.

Versi TPU Sesuai permintaan Spot Flex-start Pemesanan sesuai permintaan Pemesanan untuk masa mendatang Pemesanan untuk masa mendatang dalam mode kalender
1 1 1

1 Pemesanan Spot, Flex-start, dan Masa mendatang dalam mode kalender untuk TPU7x dibatasi oleh daftar yang diizinkan. Untuk meminta akses, hubungi tim akun atau tim penjualan Anda.

Perbandingan versi TPU

Bandingkan karakteristik berbagai versi TPU. Anda dapat memilih properti tertentu di kolom Choose properties to compare untuk membandingkan properti tersebut di semua versi TPU pada tabel berikut.

Dioptimalkan untuk akselerator Dioptimalkan untuk akselerator Dioptimalkan untuk akselerator
VM VM VM
Intel Emerald Rapids AMD EPYC Genoa Intel Sapphire Rapids
x86 x86 x86
224 44 hingga 180 208
Rangkaian pesan Rangkaian pesan Rangkaian pesan
960 GB 176 hingga 1440 GB 448 GB
NUMA NUMA NUMA
NVMe NVMe NVMe
gVNIC gVNIC gVNIC
400 Gbps 50 hingga 400 Gbps 200 Gbps
4 8 4
diskon diskon diskon
diskon diskon diskon

Spesifikasi arsitektur TPU

Tabel berikut mencantumkan spesifikasi utama untuk setiap versi TPU.

Spesifikasi TPU7x TPU v6e TPU v5p
Jumlah chip per pod 9216 256 8960
Komputasi puncak per chip (BF16) (TFLOPs) 2307 918 459
Komputasi puncak per chip (FP8) (TFLOPs) 4614 918 459
Kapasitas HBM per chip (GiB) 192 32 95
Bandwidth HBM per chip (GiBps) 7380 1638 2575
Jumlah vCPU (VM 4 chip) 224 180 208
RAM (GiB) (VM 4 chip) 960 720 448
Jumlah TensorCore per chip 2 1 2
Jumlah SparseCore per chip 4 2 4
Bandwidth interkoneksi antar-chip (ICI) dua arah per chip (GBps) 1200 800 1200
Bandwidth jaringan pusat data (DCN) per chip (Gbps) 100 100 50

Jenis mesin TPU

Bagian berikut menjelaskan jenis mesin yang tersedia untuk setiap versi TPU.

TPU7x (Ironwood)

Setiap virtual machine (VM) TPU7x berisi 4 chip TPU. Semua slice TPU7x menggunakan VM 4 chip host penuh.

Setiap chip TPU7x berisi dua TensorCore dan empat SparseCore.

Model pemrograman Ironwood memungkinkan Anda mengakses dua perangkat TPU, bukan arsitektur core logis tunggal yang digunakan pada generasi sebelumnya. Untuk mengetahui informasi selengkapnya, lihat Arsitektur chiplet ganda dalam dokumentasi Cloud TPU.

Jenis mesin Jumlah vCPU Memori instance (GiB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps) Jumlah chip TPU per VM Jumlah node NUMA Total memori TPU (HBM GiB)
tpu7x-standard-4t 224 960 2 400 4 2 768

Untuk mengetahui informasi selengkapnya tentang arsitektur TPU7x, lihat TPU7x (Ironwood) dalam dokumentasi Cloud TPU.

TPU v6e (Trillium)

Setiap VM v6e TPU dapat berisi 1, 4, atau 8 chip TPU. Slice 4 chip dan yang lebih kecil memiliki node akses memori tidak seragam (NUMA) yang sama.

Slice v6e dibuat menggunakan VM setengah host, masing-masing dengan 4 chip TPU, kecuali untuk berikut ini:

  • ct6e-standard-1t dengan hanya satu chip TPU terutama ditujukan untuk pengujian.
  • ct6e-standard-8t adalah VM full-host yang telah dioptimalkan untuk kasus penggunaan inferensi, sehingga memungkinkan semua 8 chip TPU yang terpasang ke satu VM digunakan dalam satu workload penayangan.
Jenis mesin Jumlah vCPU Memori instance (GB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps) Jumlah chip TPU per VM Jumlah node NUMA Total memori TPU (HBM GiB)
ct6e-standard-1t 44 176 1/4 50 1 1 32
ct6e-standard-4t 180 720 2 400 4 1 128
ct6e-standard-8t 360 1440 1 200 8 2 256

Untuk mengetahui informasi selengkapnya tentang arsitektur TPU v6e, lihat TPU v6e di dokumentasi Cloud TPU.

TPU v5p

Pod TPU v5p terdiri dari 8.960 chip TPU yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip TPU dalam slice berukuran sama dengan berbagai cara. Pelatihan slice tunggal didukung hingga 6.144 chip TPU.

Jenis mesin Jumlah vCPU Memori instance (GB) Jumlah NIC fisik Bandwidth jaringan maksimum (Gbps) Jumlah chip TPU per VM Jumlah node NUMA Total memori TPU (HBM GiB)
ct5p-hightpu-4t 208 448 1 200 4 2 380

Untuk mengetahui informasi selengkapnya tentang arsitektur TPU v5p, lihat TPU v5p di dokumentasi Cloud TPU.

Topologi TPU

Topologi menentukan susunan fisik TPU dalam slice TPU. Bergantung pada versi TPU, topologinya dua atau tiga dimensi. Anda dapat mengidentifikasi jumlah chip TPU dalam slice dengan menghitung hasil kali setiap ukuran dalam topologi. Contoh:

  • Jenis mesin tpu7x-standard-4t dengan topologi 2x2x2 adalah slice TPU7x multi-host 8 chip.

Tabel berikut mencantumkan topologi yang tersedia untuk setiap versi TPU.

Versi TPU Jenis mesin Cakupan Spesifikasi teknis
TPU7x (Ironwood) tpu7x-standard-4t Host tunggal
  • Topologi: 2x2x1
  • Jumlah chip TPU untuk topologi: 4
  • Jumlah host: 1
  • Jumlah VM: 1
  • Jumlah kubus: 1/16
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 2x2x2
  • Jumlah chip TPU untuk topologi: 8
  • Jumlah penyelenggara: 2
  • Jumlah VM: 2
  • Jumlah ruang kubus: 1/8
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 2x2x4
  • Jumlah chip TPU untuk topologi: 16
  • Jumlah host: 4
  • Jumlah VM: 4
  • Jumlah kubus: 1/4
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 2x4x4
  • Jumlah chip TPU untuk topologi: 32
  • Jumlah host: 8
  • Jumlah VM: 8
  • Jumlah ruang kubus: 1/2
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 4x4x4
  • Jumlah chip TPU untuk topologi: 64
  • Jumlah host: 16
  • Jumlah VM: 16
  • Jumlah kubus: 1
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 4x4x8
  • Jumlah chip TPU untuk topologi: 128
  • Jumlah host: 32
  • Jumlah VM: 32
  • Jumlah kubus: 2
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 4x8x8
  • Jumlah chip TPU untuk topologi: 256
  • Jumlah host: 64
  • Jumlah VM: 64
  • Jumlah kubus: 4
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 8x8x8
  • Jumlah chip TPU untuk topologi: 512
  • Jumlah host: 128
  • Jumlah VM: 128
  • Jumlah kubus: 8
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: 8x8x16
  • Jumlah chip TPU untuk topologi: 1024
  • Jumlah host: 256
  • Jumlah VM: 256
  • Jumlah kubus: 16
TPU7x (Ironwood) tpu7x-standard-4t Multi-host
  • Topologi: {A}x{B}x{C} (dengan A, B, dan C adalah kelipatan dua)
  • Jumlah chip TPU untuk topologi: A*B*C
  • Jumlah host: (A*B*C)/4
  • Jumlah VM: (A*B*C/4)
  • Jumlah ruang kubus: (A*B*C/64)
TPU v6e (Trillium) ct6e-standard-1t Host tunggal
  • Topologi: 1x1
  • Jumlah chip TPU untuk topologi: 1
  • Jumlah VM: 1
TPU v6e (Trillium) ct6e-standard-8t Host tunggal
  • Topologi: 2x4
  • Jumlah chip TPU untuk topologi: 8
  • Jumlah VM: 1
TPU v6e (Trillium) ct6e-standard-4t Host tunggal
  • Topologi: 2x2
  • Jumlah chip TPU untuk topologi: 4
  • Jumlah VM: 1
TPU v6e (Trillium) ct6e-standard-4t Multi-host
  • Topologi: 2x4
  • Jumlah chip TPU untuk topologi: 8
  • Jumlah VM: 2
TPU v6e (Trillium) ct6e-standard-4t Multi-host
  • Topologi: 4x4
  • Jumlah chip TPU untuk topologi: 16
  • Jumlah VM: 4
TPU v6e (Trillium) ct6e-standard-4t Multi-host
  • Topologi: 4x8
  • Jumlah chip TPU untuk topologi: 32
  • Jumlah VM: 8
TPU v6e (Trillium) ct6e-standard-4t Multi-host
  • Topologi: 8x8
  • Jumlah chip TPU untuk topologi: 64
  • Jumlah VM: 16
TPU v6e (Trillium) ct6e-standard-4t Multi-host
  • Topologi: 8x16
  • Jumlah chip TPU untuk topologi: 128
  • Jumlah VM: 32
TPU v6e (Trillium) ct6e-standard-4t Multi-host
  • Topologi: 16x16
  • Jumlah chip TPU untuk topologi: 256
  • Jumlah VM: 64
TPU v5p ct5p-hightpu-4t Host tunggal
  • Topologi: 2x2x1
  • Jumlah chip TPU untuk topologi: 4
  • Jumlah VM: 1
TPU v5p ct5p-hightpu-4t Multi-host
  • Topologi: 2x2x2
  • Jumlah chip TPU untuk topologi: 8
  • Jumlah VM: 2
TPU v5p ct5p-hightpu-4t Multi-host
  • Topologi: 2x2x4
  • Jumlah chip TPU untuk topologi: 16
  • Jumlah VM: 4
TPU v5p ct5p-hightpu-4t Multi-host
  • Topologi: 2x4x4
  • Jumlah chip TPU untuk topologi: 32
  • Jumlah VM: 8
TPU v5p ct5p-hightpu-4t Multi-host
  • Topologi: {A}x{B}x{C} (dengan A, B, dan C adalah kelipatan dua)
  • Jumlah chip TPU untuk topologi: A*B*C
  • Jumlah VM: (A*B*C/4)1
  1. Dihitung berdasarkan produk topologi dibagi empat.

Langkah berikutnya