Dokumen ini menjelaskan instance Compute Engine dalam kelompok mesin yang dioptimalkan untuk akselerator yang memiliki Unit Pemrosesan Tensor (TPU). TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan secara khusus oleh Google dan dioptimalkan secara khusus untuk workload kecerdasan buatan (AI) dan machine learning (ML).
Compute Engine mendukung versi TPU berikut:
- TPU7x
- TPU v6e
- TPU v5p
Setiap jenis mesin dalam suatu versi memiliki topologi tertentu dan sejumlah chip TPU yang terpasang.
Dasar-dasar arsitektur TPU
Memahami dasar-dasar arsitektur TPU membantu Anda memilih versi dan jenis mesin TPU untuk workload Anda.
Chip TPU: Chip TPU adalah akselerator khusus yang didesain oleh Google untuk machine learning. Setiap chip TPU berisi satu atau beberapa TensorCore untuk menangani operasi matriks yang sangat besar. Setiap TensorCore terdiri dari satu atau beberapa unit perkalian matriks (MXU), yang menggunakan arsitektur array sistolik untuk melakukan ribuan operasi multiply-accumulate per siklus tanpa akses memori konstan. Meskipun terutama digunakan untuk pemrosesan matriks berkecepatan tinggi, chip TPU juga mencakup unit vektor dan skalar untuk komputasi umum dan operasi alur kontrol.
Pod TPU: Pod TPU adalah serangkaian TPU yang berdekatan dan dikelompokkan bersama melalui jaringan khusus. Jumlah TPU chip dalam Pod TPU bergantung pada versi TPU.
VM TPU: VM TPU adalah mesin virtual Linux yang berjalan di host TPU dan memiliki akses ke TPU yang mendasarinya. Anda dapat terhubung langsung ke VM TPU menggunakan SSH. Anda memiliki akses root ke VM, sehingga Anda dapat menjalankan kode arbitrer. Anda dapat mengakses log debug dan pesan error compiler dan runtime.
Slice TPU: Grup logis chip TPU yang saling terhubung, yang diakses melalui satu atau beberapa VM TPU. Slice memiliki salah satu cakupan berikut:
- Slice host tunggal: Slice yang terdiri dari satu mesin host. Secara umum, ini dipetakan ke satu VM TPU.
- Slice multi-host: Slice yang terdiri dari beberapa VM TPU yang saling terhubung menggunakan interkoneksi antar-chip (ICI) berkecepatan tinggi.
Kubus TPU: Topologi 4x4x4 dari chip TPU yang saling terhubung. Kubus ini hanya berlaku untuk topologi 3D.
SparseCore: SparseCore adalah pemroses aliran data yang mempercepat model menggunakan operasi sparse. Kasus penggunaan utama adalah mempercepat model rekomendasi, yang sangat bergantung pada embedding.
Versi TPU: Arsitektur chip TPU yang tepat bergantung pada versi TPU yang Anda gunakan. Setiap versi TPU juga mendukung ukuran dan konfigurasi slice yang berbeda.
Untuk mengetahui informasi tentang cara kerja TPU, lihat dokumen Arsitektur TPU di dokumentasi Cloud TPU.
Versi TPU yang direkomendasikan menurut jenis workload
| Versi TPU | Jenis workload utama |
|---|---|
| TPU7x (Ironwood) |
|
| TPU v6e (Trillium) |
|
| TPU v5p |
|
Opsi pemakaian
Untuk mengoptimalkan pemanfaatan resource dan biaya sekaligus menyeimbangkan performa workload, Compute Engine mendukung opsi penggunaan TPU berikut:
On-demand: untuk menggunakan TPU tanpa mengatur kapasitas terlebih dahulu. Sebelum meminta resource, Anda harus memiliki kuota sesuai permintaan yang cukup untuk jenis dan jumlah VM TPU tertentu. Sesuai permintaan adalah opsi penggunaan yang paling fleksibel; namun, tidak ada jaminan bahwa sumber daya sesuai permintaan yang tersedia akan cukup untuk memenuhi permintaan Anda.
Spot VM: untuk menyediakan Spot VM, Anda bisa mendapatkan diskon yang signifikan, tetapi Spot VM dapat di-preempt kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Tentang Spot VM.
Flex-start: untuk menyediakan VM Flex-start hingga tujuh hari, dengan Compute Engine yang secara otomatis mengalokasikan hardware berdasarkan upaya terbaik berdasarkan ketersediaan. Untuk mengetahui informasi selengkapnya, lihat Tentang VM mulai fleksibel.
Pemesanan untuk masa mendatang: untuk meminta pemesanan untuk masa mendatang selama satu tahun atau lebih. Untuk mengetahui informasi selengkapnya, lihat Meminta pemesanan untuk masa mendatang selama satu tahun atau lebih dalam dokumentasi Cloud TPU.
Pemesanan untuk masa mendatang dalam mode kalender: untuk menyediakan resource TPU hingga 90 hari, untuk jangka waktu tertentu. Untuk mengetahui informasi selengkapnya, lihat Tentang permintaan pemesanan untuk masa mendatang dalam mode kalender.
Sesuai permintaan adalah model pemakaian default untuk TPU jika Anda tidak menentukan opsi lain.
Untuk mengetahui informasi tentang model penyediaan pokok yang memungkinkan opsi penggunaan, lihat Tentang model penyediaan VM.
Ketersediaan opsi pemakaian menurut versi TPU
Tabel berikut merangkum ketersediaan setiap opsi penggunaan menurut versi TPU.
| Versi TPU | Sesuai permintaan | Spot | Flex-start | Pemesanan sesuai permintaan | Pemesanan untuk masa mendatang | Pemesanan untuk masa mendatang dalam mode kalender |
|---|---|---|---|---|---|---|
| 1 | 1 | 1 | ||||
1 Pemesanan Spot, Flex-start, dan Masa mendatang dalam mode kalender untuk TPU7x dibatasi oleh daftar yang diizinkan. Untuk meminta akses, hubungi tim akun atau tim penjualan Anda.
Perbandingan versi TPU
Bandingkan karakteristik berbagai versi TPU. Anda dapat memilih properti tertentu di kolom Choose properties to compare untuk membandingkan properti tersebut di semua versi TPU pada tabel berikut.
| Dioptimalkan untuk akselerator | Dioptimalkan untuk akselerator | Dioptimalkan untuk akselerator |
| VM | VM | VM |
| Intel Emerald Rapids | AMD EPYC Genoa | Intel Sapphire Rapids |
| x86 | x86 | x86 |
| 224 | 44 hingga 180 | 208 |
| Rangkaian pesan | Rangkaian pesan | Rangkaian pesan |
| 960 GB | 176 hingga 1440 GB | 448 GB |
| NUMA | NUMA | NUMA |
| — | — | — |
| — | — | — |
| — | — | — |
| — | — | — |
| — | — | |
| NVMe | NVMe | NVMe |
| — | ||
| — | — | — |
| — | — | — |
| — | — | — |
| — | — | — |
| — | — | — |
| — | — | |
| — | — | — |
| — | — | — |
| gVNIC | gVNIC | gVNIC |
| 400 Gbps | 50 hingga 400 Gbps | 200 Gbps |
| 4 | 8 | 4 |
| — | — | — |
| — diskon | — diskon | — diskon |
Spesifikasi arsitektur TPU
Tabel berikut mencantumkan spesifikasi utama untuk setiap versi TPU.
| Spesifikasi | TPU7x | TPU v6e | TPU v5p |
|---|---|---|---|
| Jumlah chip per pod | 9216 | 256 | 8960 |
| Komputasi puncak per chip (BF16) (TFLOPs) | 2307 | 918 | 459 |
| Komputasi puncak per chip (FP8) (TFLOPs) | 4614 | 918 | 459 |
| Kapasitas HBM per chip (GiB) | 192 | 32 | 95 |
| Bandwidth HBM per chip (GiBps) | 7380 | 1638 | 2575 |
| Jumlah vCPU (VM 4 chip) | 224 | 180 | 208 |
| RAM (GiB) (VM 4 chip) | 960 | 720 | 448 |
| Jumlah TensorCore per chip | 2 | 1 | 2 |
| Jumlah SparseCore per chip | 4 | 2 | 4 |
| Bandwidth interkoneksi antar-chip (ICI) dua arah per chip (GBps) | 1200 | 800 | 1200 |
| Bandwidth jaringan pusat data (DCN) per chip (Gbps) | 100 | 100 | 50 |
Jenis mesin TPU
Bagian berikut menjelaskan jenis mesin yang tersedia untuk setiap versi TPU.
TPU7x (Ironwood)
Setiap virtual machine (VM) TPU7x berisi 4 chip TPU. Semua slice TPU7x menggunakan VM 4 chip host penuh.
Setiap chip TPU7x berisi dua TensorCore dan empat SparseCore.
Model pemrograman Ironwood memungkinkan Anda mengakses dua perangkat TPU, bukan arsitektur core logis tunggal yang digunakan pada generasi sebelumnya. Untuk mengetahui informasi selengkapnya, lihat Arsitektur chiplet ganda dalam dokumentasi Cloud TPU.
| Jenis mesin | Jumlah vCPU | Memori instance (GiB) | Jumlah NIC fisik | Bandwidth jaringan maksimum (Gbps) | Jumlah chip TPU per VM | Jumlah node NUMA | Total memori TPU (HBM GiB) |
|---|---|---|---|---|---|---|---|
tpu7x-standard-4t |
224 | 960 | 2 | 400 | 4 | 2 | 768 |
Untuk mengetahui informasi selengkapnya tentang arsitektur TPU7x, lihat TPU7x (Ironwood) dalam dokumentasi Cloud TPU.
TPU v6e (Trillium)
Setiap VM v6e TPU dapat berisi 1, 4, atau 8 chip TPU. Slice 4 chip dan yang lebih kecil memiliki node akses memori tidak seragam (NUMA) yang sama.
Slice v6e dibuat menggunakan VM setengah host, masing-masing dengan 4 chip TPU, kecuali untuk berikut ini:
ct6e-standard-1tdengan hanya satu chip TPU terutama ditujukan untuk pengujian.ct6e-standard-8tadalah VM full-host yang telah dioptimalkan untuk kasus penggunaan inferensi, sehingga memungkinkan semua 8 chip TPU yang terpasang ke satu VM digunakan dalam satu workload penayangan.
| Jenis mesin | Jumlah vCPU | Memori instance (GB) | Jumlah NIC fisik | Bandwidth jaringan maksimum (Gbps) | Jumlah chip TPU per VM | Jumlah node NUMA | Total memori TPU (HBM GiB) |
|---|---|---|---|---|---|---|---|
ct6e-standard-1t |
44 | 176 | 1/4 | 50 | 1 | 1 | 32 |
ct6e-standard-4t |
180 | 720 | 2 | 400 | 4 | 1 | 128 |
ct6e-standard-8t |
360 | 1440 | 1 | 200 | 8 | 2 | 256 |
Untuk mengetahui informasi selengkapnya tentang arsitektur TPU v6e, lihat TPU v6e di dokumentasi Cloud TPU.
TPU v5p
Pod TPU v5p terdiri dari 8.960 chip TPU yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip TPU dalam slice berukuran sama dengan berbagai cara. Pelatihan slice tunggal didukung hingga 6.144 chip TPU.
| Jenis mesin | Jumlah vCPU | Memori instance (GB) | Jumlah NIC fisik | Bandwidth jaringan maksimum (Gbps) | Jumlah chip TPU per VM | Jumlah node NUMA | Total memori TPU (HBM GiB) |
|---|---|---|---|---|---|---|---|
ct5p-hightpu-4t |
208 | 448 | 1 | 200 | 4 | 2 | 380 |
Untuk mengetahui informasi selengkapnya tentang arsitektur TPU v5p, lihat TPU v5p di dokumentasi Cloud TPU.
Topologi TPU
Topologi menentukan susunan fisik TPU dalam slice TPU. Bergantung pada versi TPU, topologinya dua atau tiga dimensi. Anda dapat mengidentifikasi jumlah chip TPU dalam slice dengan menghitung hasil kali setiap ukuran dalam topologi. Contoh:
- Jenis mesin
tpu7x-standard-4tdengan topologi2x2x2adalah slice TPU7x multi-host 8 chip.
Tabel berikut mencantumkan topologi yang tersedia untuk setiap versi TPU.
| Versi TPU | Jenis mesin | Cakupan | Spesifikasi teknis |
|---|---|---|---|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Host tunggal |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU7x (Ironwood) | tpu7x-standard-4t |
Multi-host |
|
| TPU v6e (Trillium) | ct6e-standard-1t |
Host tunggal |
|
| TPU v6e (Trillium) | ct6e-standard-8t |
Host tunggal |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Host tunggal |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Multi-host |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Multi-host |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Multi-host |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Multi-host |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Multi-host |
|
| TPU v6e (Trillium) | ct6e-standard-4t |
Multi-host |
|
| TPU v5p | ct5p-hightpu-4t |
Host tunggal |
|
| TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
| TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
| TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
| TPU v5p | ct5p-hightpu-4t |
Multi-host |
|
-
Dihitung berdasarkan produk topologi dibagi empat. ↩
Langkah berikutnya
- Pelajari resource TPU di Compute Engine
- Coba panduan memulai: Membuat VM TPU tunggal