Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mesin TPU dalam kelompok mesin yang dioptimalkan akselerator

Dokumen ini menjelaskan instance Compute Engine dalam kelompok mesin yang dioptimalkan untuk akselerator yang memiliki Unit Pemrosesan Tensor (TPU). TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan secara khusus oleh Google dan dioptimalkan secara khusus untuk workload kecerdasan buatan (AI) dan machine learning (ML).

Compute Engine mendukung versi TPU berikut:

TPU7x
TPU v6e
TPU v5p

Setiap jenis mesin dalam suatu versi memiliki topologi tertentu dan sejumlah chip TPU yang terpasang.

Dasar-dasar arsitektur TPU

Memahami dasar-dasar arsitektur TPU membantu Anda memilih versi dan jenis mesin TPU untuk workload Anda.

Chip TPU: Chip TPU adalah akselerator khusus yang didesain oleh Google untuk machine learning. Setiap chip TPU berisi satu atau beberapa TensorCore untuk menangani operasi matriks yang sangat besar. Setiap TensorCore terdiri dari satu atau beberapa unit perkalian matriks (MXU), yang menggunakan arsitektur array sistolik untuk melakukan ribuan operasi multiply-accumulate per siklus tanpa akses memori konstan. Meskipun terutama digunakan untuk pemrosesan matriks berkecepatan tinggi, chip TPU juga mencakup unit vektor dan skalar untuk komputasi umum dan operasi alur kontrol.
Pod TPU: Pod TPU adalah serangkaian TPU yang berdekatan dan dikelompokkan bersama melalui jaringan khusus. Jumlah TPU chip dalam Pod TPU bergantung pada versi TPU.
VM TPU: VM TPU adalah mesin virtual Linux yang berjalan di host TPU dan memiliki akses ke TPU yang mendasarinya. Anda dapat terhubung langsung ke VM TPU menggunakan SSH. Anda memiliki akses root ke VM, sehingga Anda dapat menjalankan kode arbitrer. Anda dapat mengakses log debug dan pesan error compiler dan runtime.
Slice TPU: Grup logis chip TPU yang saling terhubung, yang diakses melalui satu atau beberapa VM TPU. Slice memiliki salah satu cakupan berikut:
- Slice host tunggal: Slice yang terdiri dari satu mesin host. Secara umum, ini dipetakan ke satu VM TPU.
- Slice multi-host: Slice yang terdiri dari beberapa VM TPU yang saling terhubung menggunakan interkoneksi antar-chip (ICI) berkecepatan tinggi.
Kubus TPU: Topologi 4x4x4 dari chip TPU yang saling terhubung. Kubus ini hanya berlaku untuk topologi 3D.
SparseCore: SparseCore adalah pemroses aliran data yang mempercepat model menggunakan operasi sparse. Kasus penggunaan utama adalah mempercepat model rekomendasi, yang sangat bergantung pada embedding.
Versi TPU: Arsitektur chip TPU yang tepat bergantung pada versi TPU yang Anda gunakan. Setiap versi TPU juga mendukung ukuran dan konfigurasi slice yang berbeda.

Untuk mengetahui informasi tentang cara kerja TPU, lihat dokumen Arsitektur TPU di dokumentasi Cloud TPU.

Versi TPU yang direkomendasikan menurut jenis workload

Versi TPU	Jenis workload utama
TPU7x (Ironwood)	Model padat dan Mixture-of-Experts (MoE) skala besar Pra-pelatihan intensif untuk model dasar yang besar Sampling dan inferensi berat decoding
TPU v6e (Trillium)	Pelatihan & fine-tuning (Transformers, CNN) Inferensi skala besar (Gemma 2, Llama, model Difusi) Mesin pemberi saran dan personalisasi (menggunakan SparseCore)
TPU v5p	Performa tertinggi untuk pelatihan model dasar skala besar Pelatihan AI multimodal berskala besar Beban kerja dengan embedding padat seperti sistem rekomendasi besar

Opsi pemakaian

Untuk mengoptimalkan pemanfaatan resource dan biaya sekaligus menyeimbangkan performa workload, Compute Engine mendukung opsi penggunaan TPU berikut:

On-demand: untuk menggunakan TPU tanpa mengatur kapasitas terlebih dahulu. Sebelum meminta resource, Anda harus memiliki kuota sesuai permintaan yang cukup untuk jenis dan jumlah VM TPU tertentu. Sesuai permintaan adalah opsi penggunaan yang paling fleksibel; namun, tidak ada jaminan bahwa sumber daya sesuai permintaan yang tersedia akan cukup untuk memenuhi permintaan Anda.
Spot VM: untuk menyediakan Spot VM, Anda bisa mendapatkan diskon yang signifikan, tetapi Spot VM dapat di-preempt kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Tentang Spot VM.
Flex-start: untuk menyediakan VM Flex-start hingga tujuh hari, dengan Compute Engine yang secara otomatis mengalokasikan hardware berdasarkan upaya terbaik berdasarkan ketersediaan. Untuk mengetahui informasi selengkapnya, lihat Tentang VM mulai fleksibel.
Pemesanan untuk masa mendatang: untuk meminta pemesanan untuk masa mendatang selama satu tahun atau lebih. Untuk mengetahui informasi selengkapnya, lihat Meminta pemesanan untuk masa mendatang selama satu tahun atau lebih dalam dokumentasi Cloud TPU.
Pemesanan untuk masa mendatang dalam mode kalender: untuk menyediakan resource TPU hingga 90 hari, untuk jangka waktu tertentu. Untuk mengetahui informasi selengkapnya, lihat Tentang permintaan pemesanan untuk masa mendatang dalam mode kalender.

Sesuai permintaan adalah model pemakaian default untuk TPU jika Anda tidak menentukan opsi lain.

Untuk mengetahui informasi tentang model penyediaan pokok yang memungkinkan opsi penggunaan, lihat Tentang model penyediaan VM.

Ketersediaan opsi pemakaian menurut versi TPU

Tabel berikut merangkum ketersediaan setiap opsi penggunaan menurut versi TPU.

Versi TPU	Spot	Flex-start	Pemesanan untuk masa mendatang dalam mode kalender
TPU7x	¹	¹	¹
TPU v6e
TPU v5p

¹ Pemesanan Spot, Flex-start, dan Masa mendatang dalam mode kalender untuk TPU7x dibatasi oleh daftar yang diizinkan. Untuk meminta akses, hubungi tim akun atau tim penjualan Anda.

Perbandingan versi TPU

Bandingkan karakteristik berbagai versi TPU. Anda dapat memilih properti tertentu di kolom Choose properties to compare untuk membandingkan properti tersebut di semua versi TPU pada tabel berikut.

	TPU7x	v6e	v5p
Jenis workload	Dioptimalkan untuk akselerator	Dioptimalkan untuk akselerator	Dioptimalkan untuk akselerator
Jenis instance	VM	VM	VM
Jenis CPU	Intel Emerald Rapids	AMD EPYC Genoa	Intel Sapphire Rapids
Arsitektur	x86	x86	x86
vCPUs	224	44 hingga 180	208
Definisi vCPU	Rangkaian pesan	Rangkaian pesan	Rangkaian pesan
Memori	960 GB	176 hingga 1440 GB	448 GB
Arsitektur memori bersama	NUMA	NUMA	NUMA
Jenis mesin kustom	—	—	—
Memori tambahan	—	—	—
Tenancy tunggal	—	—	—
Virtualisasi bertingkat	—	—	—
Confidential Computing	—		—
Jenis antarmuka disk	NVMe	NVMe	NVMe
Hyperdisk Balanced			—
HA Hyperdisk Balanced	—	—	—
Hyperdisk Extreme	—	—	—
Hyperdisk ML
Hyperdisk Throughput	—	—	—
SSD Lokal	—	—	—
PD standar	—	—	—
PD Seimbang	—	—
PD SSD	—	—	—
PD Ekstrem	—	—	—
Network interfaces	gVNIC	gVNIC	gVNIC
Bandwidth jaringan maksimum	400 Gbps	50 hingga 400 Gbps	200 Gbps
TPU Maks per VM	4	8	4
Diskon untuk penggunaan berkelanjutan	—	—	—
Diskon abonemen berbasis resource (DA)	diskon	diskon	diskon
DA fleksibel Compute	— diskon	— diskon	— diskon
Diskon Spot VM

Spesifikasi arsitektur TPU

Tabel berikut mencantumkan spesifikasi utama untuk setiap versi TPU.

Spesifikasi	TPU7x	TPU v6e	TPU v5p
Jumlah chip per pod	9216	256	8960
Komputasi puncak per chip (BF16) (TFLOPs)	2307	918	459
Komputasi puncak per chip (FP8) (TFLOPs)	4614	918	459
Kapasitas HBM per chip (GiB)	192	32	95
Bandwidth HBM per chip (GiBps)	7380	1638	2575
Jumlah vCPU (VM 4 chip)	224	180	208
RAM (GiB) (VM 4 chip)	960	720	448
Jumlah TensorCore per chip	2	1	2
Jumlah SparseCore per chip	4	2	4
Bandwidth interkoneksi antar-chip (ICI) dua arah per chip (GBps)	1200	800	1200
Bandwidth jaringan pusat data (DCN) per chip (Gbps)	100	100	50

Jenis mesin TPU

Bagian berikut menjelaskan jenis mesin yang tersedia untuk setiap versi TPU.

TPU7x (Ironwood)

Setiap virtual machine (VM) TPU7x berisi 4 chip TPU. Semua slice TPU7x menggunakan VM 4 chip host penuh.

Setiap chip TPU7x berisi dua TensorCore dan empat SparseCore.

Model pemrograman Ironwood memungkinkan Anda mengakses dua perangkat TPU, bukan arsitektur core logis tunggal yang digunakan pada generasi sebelumnya. Untuk mengetahui informasi selengkapnya, lihat Arsitektur chiplet ganda dalam dokumentasi Cloud TPU.

Jenis mesin	Jumlah vCPU	Memori instance (GiB)	Jumlah NIC fisik	Bandwidth jaringan maksimum (Gbps)	Jumlah chip TPU per VM	Jumlah node NUMA	Total memori TPU (HBM GiB)
`tpu7x-standard-4t`	224	960	2	400	4	2	768

Untuk mengetahui informasi selengkapnya tentang arsitektur TPU7x, lihat TPU7x (Ironwood) dalam dokumentasi Cloud TPU.

TPU v6e (Trillium)

Setiap VM v6e TPU dapat berisi 1, 4, atau 8 chip TPU. Slice 4 chip dan yang lebih kecil memiliki node akses memori tidak seragam (NUMA) yang sama.

Slice v6e dibuat menggunakan VM setengah host, masing-masing dengan 4 chip TPU, kecuali untuk berikut ini:

ct6e-standard-1t dengan hanya satu chip TPU terutama ditujukan untuk pengujian.
ct6e-standard-8t adalah VM full-host yang telah dioptimalkan untuk kasus penggunaan inferensi, sehingga memungkinkan semua 8 chip TPU yang terpasang ke satu VM digunakan dalam satu workload penayangan.

Jenis mesin	Jumlah vCPU	Memori instance (GB)	Jumlah NIC fisik	Bandwidth jaringan maksimum (Gbps)	Jumlah chip TPU per VM	Jumlah node NUMA	Total memori TPU (HBM GiB)
`ct6e-standard-1t`	44	176	1/4	50	1	1	32
`ct6e-standard-4t`	180	720	2	400	4	1	128
`ct6e-standard-8t`	360	1440	1	200	8	2	256

Untuk mengetahui informasi selengkapnya tentang arsitektur TPU v6e, lihat TPU v6e di dokumentasi Cloud TPU.

TPU v5p

Pod TPU v5p terdiri dari 8.960 chip TPU yang saling terhubung dengan link berkecepatan tinggi yang dapat dikonfigurasi ulang. Jaringan fleksibel TPU v5p memungkinkan Anda menghubungkan chip TPU dalam slice berukuran sama dengan berbagai cara. Pelatihan slice tunggal didukung hingga 6.144 chip TPU.

Jenis mesin	Jumlah vCPU	Memori instance (GB)	Jumlah NIC fisik	Bandwidth jaringan maksimum (Gbps)	Jumlah chip TPU per VM	Jumlah node NUMA	Total memori TPU (HBM GiB)
`ct5p-hightpu-4t`	208	448	1	200	4	2	380

Untuk mengetahui informasi selengkapnya tentang arsitektur TPU v5p, lihat TPU v5p di dokumentasi Cloud TPU.

Topologi TPU

Topologi menentukan susunan fisik TPU dalam slice TPU. Bergantung pada versi TPU, topologinya dua atau tiga dimensi. Anda dapat mengidentifikasi jumlah chip TPU dalam slice dengan menghitung hasil kali setiap ukuran dalam topologi. Contoh:

Jenis mesin tpu7x-standard-4t dengan topologi 2x2x2 adalah slice TPU7x multi-host 8 chip.

Tabel berikut mencantumkan topologi yang tersedia untuk setiap versi TPU.

Versi TPU	Jenis mesin	Cakupan	Spesifikasi teknis
TPU7x (Ironwood)	`tpu7x-standard-4t`	Host tunggal	Topologi: 2x2x1 Jumlah chip TPU untuk topologi: 4 Jumlah host: 1 Jumlah VM: 1 Jumlah kubus: 1/16
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 2x2x2 Jumlah chip TPU untuk topologi: 8 Jumlah penyelenggara: 2 Jumlah VM: 2 Jumlah ruang kubus: 1/8
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 2x2x4 Jumlah chip TPU untuk topologi: 16 Jumlah host: 4 Jumlah VM: 4 Jumlah kubus: 1/4
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU untuk topologi: 32 Jumlah host: 8 Jumlah VM: 8 Jumlah ruang kubus: 1/2
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 4x4x4 Jumlah chip TPU untuk topologi: 64 Jumlah host: 16 Jumlah VM: 16 Jumlah kubus: 1
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 4x4x8 Jumlah chip TPU untuk topologi: 128 Jumlah host: 32 Jumlah VM: 32 Jumlah kubus: 2
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 4x8x8 Jumlah chip TPU untuk topologi: 256 Jumlah host: 64 Jumlah VM: 64 Jumlah kubus: 4
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 8x8x8 Jumlah chip TPU untuk topologi: 512 Jumlah host: 128 Jumlah VM: 128 Jumlah kubus: 8
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: 8x8x16 Jumlah chip TPU untuk topologi: 1024 Jumlah host: 256 Jumlah VM: 256 Jumlah kubus: 16
TPU7x (Ironwood)	`tpu7x-standard-4t`	Multi-host	Topologi: {A}x{B}x{C} (dengan A, B, dan C adalah kelipatan dua) Jumlah chip TPU untuk topologi: ABC Jumlah host: (ABC)/4 Jumlah VM: (ABC/4) Jumlah ruang kubus: (ABC/64)
TPU v6e (Trillium)	`ct6e-standard-1t`	Host tunggal	Topologi: 1x1 Jumlah chip TPU untuk topologi: 1 Jumlah VM: 1
TPU v6e (Trillium)	`ct6e-standard-8t`	Host tunggal	Topologi: 2x4 Jumlah chip TPU untuk topologi: 8 Jumlah VM: 1
TPU v6e (Trillium)	`ct6e-standard-4t`	Host tunggal	Topologi: 2x2 Jumlah chip TPU untuk topologi: 4 Jumlah VM: 1
TPU v6e (Trillium)	`ct6e-standard-4t`	Multi-host	Topologi: 2x4 Jumlah chip TPU untuk topologi: 8 Jumlah VM: 2
TPU v6e (Trillium)	`ct6e-standard-4t`	Multi-host	Topologi: 4x4 Jumlah chip TPU untuk topologi: 16 Jumlah VM: 4
TPU v6e (Trillium)	`ct6e-standard-4t`	Multi-host	Topologi: 4x8 Jumlah chip TPU untuk topologi: 32 Jumlah VM: 8
TPU v6e (Trillium)	`ct6e-standard-4t`	Multi-host	Topologi: 8x8 Jumlah chip TPU untuk topologi: 64 Jumlah VM: 16
TPU v6e (Trillium)	`ct6e-standard-4t`	Multi-host	Topologi: 8x16 Jumlah chip TPU untuk topologi: 128 Jumlah VM: 32
TPU v6e (Trillium)	`ct6e-standard-4t`	Multi-host	Topologi: 16x16 Jumlah chip TPU untuk topologi: 256 Jumlah VM: 64
TPU v5p	`ct5p-hightpu-4t`	Host tunggal	Topologi: 2x2x1 Jumlah chip TPU untuk topologi: 4 Jumlah VM: 1
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x2x2 Jumlah chip TPU untuk topologi: 8 Jumlah VM: 2
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x2x4 Jumlah chip TPU untuk topologi: 16 Jumlah VM: 4
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: 2x4x4 Jumlah chip TPU untuk topologi: 32 Jumlah VM: 8
TPU v5p	`ct5p-hightpu-4t`	Multi-host	Topologi: {A}x{B}x{C} (dengan A, B, dan C adalah kelipatan dua) Jumlah chip TPU untuk topologi: ABC Jumlah VM: (ABC/4)¹

Dihitung berdasarkan produk topologi dibagi empat. ↩

Langkah berikutnya

Pelajari resource TPU di Compute Engine
Coba panduan memulai: Membuat VM TPU tunggal