Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Arsitektur TPU

Tensor Processing Unit (TPU) adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dirancang oleh Google untuk mempercepat workload machine learning. Anda dapat menggunakan TPU melalui Compute Engine, Google Kubernetes Engine, dan Vertex AI.

TPU dirancang untuk melakukan operasi matriks dengan cepat sehingga ideal untuk workload machine learning. Anda dapat menjalankan beban kerja machine learning di TPU menggunakan framework seperti PyTorch dan JAX.

Bagaimana cara kerja TPU?

Untuk memahami cara kerja TPU, sebaiknya pahami cara akselerator lain mengatasi tantangan komputasi dalam melatih model ML.

Cara kerja CPU

CPU adalah prosesor tujuan umum yang didasarkan pada arsitektur von Neumann. Artinya, CPU bekerja dengan software dan memori seperti ini:

Ilustrasi cara kerja CPU

Manfaat terbesar CPU adalah fleksibilitasnya. Anda dapat memuat jenis software apa pun di CPU untuk berbagai jenis aplikasi. Misalnya, Anda dapat menggunakan CPU untuk pengolahan kata di PC, mengontrol mesin roket, menjalankan transaksi perbankan, atau mengklasifikasikan gambar dengan jaringan neural.

CPU memuat nilai dari memori, melakukan perhitungan pada nilai, dan menyimpan hasilnya kembali ke memori untuk setiap perhitungan. Akses memori lambat jika dibandingkan dengan kecepatan perhitungan dan dapat membatasi total throughput CPU. Hal ini sering disebut sebagai Von Neumann bottleneck.

Cara kerja GPU

Untuk mendapatkan throughput yang lebih tinggi, GPU berisi ribuan Unit Logika Aritmetika (ALU) dalam satu prosesor. GPU modern biasanya berisi antara 2.500–5.000 ALU. Jumlah prosesor yang besar berarti Anda dapat mengeksekusi ribuan operasi perkalian dan penjumlahan secara bersamaan.

Ilustrasi cara kerja GPU

Arsitektur GPU ini berfungsi dengan baik pada aplikasi dengan paralelisme besar, seperti operasi matriks dalam jaringan neural. Bahkan, pada workload pelatihan umum untuk deep learning, GPU dapat memberikan throughput yang jauh lebih tinggi dibandingkan CPU.

Namun, GPU tetap merupakan prosesor tujuan umum yang harus mendukung banyak aplikasi dan software yang berbeda. Oleh karena itu, GPU memiliki masalah yang sama dengan CPU. Untuk setiap perhitungan dalam ribuan ALU, GPU harus mengakses register atau memori bersama untuk membaca operand dan menyimpan hasil perhitungan sementara.

Cara kerja TPU

Google mendesain Cloud TPU sebagai prosesor matriks yang dikhususkan untuk beban kerja jaringan neural. TPU tidak dapat menjalankan pengolah kata, mengontrol mesin roket, atau mengeksekusi transaksi perbankan, tetapi TPU dapat menangani operasi matriks besar yang digunakan dalam jaringan neural dengan kecepatan tinggi.

Tugas utama TPU adalah pemrosesan matriks, yang merupakan kombinasi dari operasi perkalian dan akumulasi. TPU berisi ribuan multiply-accumulator yang terhubung langsung satu sama lain untuk membentuk matriks fisik besar. Arsitektur ini disebut arsitektur array sistolik. Cloud TPU v3, berisi dua array sistolik ALU 128 x 128, pada satu prosesor.

Host TPU mengalirkan data ke antrean infeed. TPU memuat data dari antrean infeed dan menyimpannya di High Bandwidth Memory (HBM). Setelah penghitungan selesai, TPU akan memuat hasil ke dalam antrean outfeed. Host TPU kemudian membaca hasil dari antrean outfeed dan menyimpannya di memori host.

Untuk melakukan operasi matriks, TPU memuat parameter dari HBM ke dalam Matrix Multiplication Unit (MXU).

Ilustrasi cara TPU memuat parameter dari memori

Kemudian, TPU memuat data dari HBM. Saat setiap perkalian dieksekusi, hasilnya diteruskan ke multiply-accumulator berikutnya. Outputnya adalah penjumlahan dari semua hasil perkalian antara data dan parameter. Tidak ada akses memori yang diperlukan selama proses perkalian matriks.

Ilustrasi cara TPU memuat data dari memori

Oleh karena itu, TPU dapat mencapai throughput komputasi yang tinggi pada perhitungan jaringan neural.

Arsitektur sistem TPU

Bagian berikut menjelaskan konsep utama sistem TPU. Untuk mengetahui informasi selengkapnya tentang istilah machine learning umum, lihat Glosarium Machine Learning.

Jika Anda baru menggunakan Cloud TPU, lihat halaman beranda dokumentasi TPU.

Chip TPU

Chip TPU berisi satu atau beberapa TensorCore. Jumlah TensorCore bergantung pada versi chip TPU. Setiap TensorCore terdiri dari satu atau beberapa unit perkalian matriks (MXU), satu unit vektor, dan satu unit skalar. Untuk mengetahui informasi selengkapnya tentang TensorCore, lihat Superkomputer Khusus Domain untuk Melatih Jaringan Neural Dalam.

MXU terdiri dari multiply-accumulator 256 x 256 (TPU v6e dan TPU7x) atau 128 x 128 (versi TPU sebelum v6e) dalam array sistolik. MXU menyediakan sebagian besar daya komputasi dalam TensorCore. Setiap MXU mampu melakukan 16.000 operasi multiply-accumulate per siklus. Semua perkalian menggunakan input bfloat16, tetapi semua akumulasi dilakukan dalam format angka FP32.

Unit vektor digunakan untuk komputasi umum seperti aktivasi dan softmax. Unit skalar digunakan untuk aliran kontrol, menghitung alamat memori, dan operasi pemeliharaan lainnya.

Pod TPU

Pod TPU adalah serangkaian TPU yang berdekatan dan dikelompokkan bersama melalui jaringan khusus. Jumlah TPU chip dalam Pod TPU bergantung pada versi TPU.

Slice

Slice adalah kumpulan chip yang semuanya berada di dalam Pod TPU yang sama dan terhubung oleh interkoneksi antar-chip (ICI) berkecepatan tinggi. Slice dijelaskan dalam bentuk chip atau TensorCore, bergantung pada versi TPU.

Topologi

Topologi menentukan susunan fisik TPU dalam slice TPU. Slice TPU memiliki topologi dua dimensi (2D) atau tiga dimensi (3D), bergantung pada versi TPU. Anda menentukan topologi sebagai jumlah chip TPU dalam setiap dimensi sebagai berikut:

Topologi 3D: Anda menentukan topologi sebagai 3-tuple ({A}x{B}x{C}), misalnya, 4x4x4. Produk {A}x{B}x{C} menentukan jumlah chip TPU dalam slice. Jika Anda menggunakan topologi dengan lebih dari 64 chip, nilai yang Anda tetapkan ke {A}, {B}, dan {C} harus memenuhi kondisi berikut:
- {A}, {B}, dan {C} harus kelipatan empat.
- Nilai yang ditetapkan harus mengikuti pola ini: {A} ≤ {B} ≤ {C}. Contohnya, 4x4x8 atau 8x8x8.
Topologi 2D: Anda menentukan topologi sebagai 2-tuple ({A}x{B}), misalnya, 2x4. Produk {A}x{B} menentukan jumlah chip TPU dalam slice.

Topologi host tunggal mengacu pada topologi dengan chip TPU dari satu host komputasi. Misalnya, untuk TPU7x, setiap host terhubung ke empat chip. Slice 2x2x1 memiliki empat chip yang terhubung ke satu host, sehingga 2x2x1 adalah topologi host tunggal.

Topologi multi-host mengacu pada topologi dengan chip TPU dari lebih dari satu host komputasi. Misalnya, untuk TPU7x, 2x2x2 (delapan chip dari dua host) dan slice yang lebih besar adalah topologi multi-host.

Multislice versus slice tunggal

Multislice adalah grup slice, yang memperluas konektivitas TPU di luar koneksi interkoneksi antar-chip (ICI) dan memanfaatkan jaringan pusat data (DCN) untuk mengirimkan data di luar slice. Data dalam setiap slice masih ditransmisikan oleh ICI. Dengan konektivitas hybrid ini, Multislice memungkinkan paralelisme di seluruh slice dan memungkinkan Anda menggunakan jumlah core TPU yang lebih banyak untuk satu tugas daripada yang dapat diakomodasi oleh satu slice.

TPU dapat digunakan untuk menjalankan tugas pada satu slice atau beberapa slice. Lihat Pengantar multirisir untuk mengetahui detail selengkapnya.

Kubus TPU

Topologi 4x4x4 dari chip TPU yang saling terhubung. Kubus ini hanya berlaku untuk topologi 3D (mulai dari TPU v4).

SparseCore

SparseCore adalah pemroses aliran data yang mempercepat model menggunakan operasi jarang. Kasus penggunaan utama adalah mempercepat model rekomendasi, yang sangat mengandalkan embedding. v5p dan TPU7x memiliki empat SparseCore per chip, dan v6e memiliki dua SparseCore per chip. Untuk penjelasan mendalam tentang cara penggunaan SparseCore, lihat Penjelasan mendalam tentang SparseCore untuk Model Embedding Besar (LEM). Anda mengontrol cara compiler XLA menggunakan SparseCores menggunakan flag XLA. Untuk mengetahui informasi selengkapnya, lihat: Flag XLA TPU.

Resiliensi ICI Cloud TPU

Resiliensi ICI membantu meningkatkan fault tolerance link optik dan switch sirkuit optik (OCS) yang menghubungkan TPU antar-kubus. (Koneksi ICI dalam kubus menggunakan link tembaga yang tidak terpengaruh). Ketahanan ICI memungkinkan koneksi ICI dirutekan di sekitar OCS dan kesalahan ICI optik. Hasilnya, ketersediaan penjadwalan slice TPU meningkat, dengan kompromi penurunan performa ICI untuk sementara.

Untuk Cloud TPU v4, v5p, dan TPU7x, resiliensi ICI diaktifkan secara default untuk slice yang berukuran satu kubus atau lebih besar, misalnya:

v5p-128 saat menentukan jenis akselerator
4x4x4 saat menentukan konfigurasi akselerator

Versi TPU

Arsitektur yang tepat dari chip TPU bergantung pada versi TPU yang Anda gunakan. Setiap versi TPU juga mendukung ukuran dan konfigurasi slice yang berbeda. Untuk mengetahui informasi selengkapnya tentang arsitektur sistem dan konfigurasi yang didukung, lihat halaman berikut:

Arsitektur cloud TPU

Google Cloud membuat TPU tersedia sebagai resource komputasi melalui VM TPU. Anda dapat menggunakan TPU untuk workload melalui Compute Engine, Google Kubernetes Engine, dan Vertex AI. Bagian berikut menjelaskan komponen utama arsitektur cloud TPU.

Arsitektur VM TPU

Arsitektur VM TPU memungkinkan Anda terhubung langsung ke VM yang terhubung secara fisik ke perangkat TPU menggunakan SSH. VM TPU, yang juga dikenal sebagai pekerja, adalah mesin virtual yang menjalankan Linux dan memiliki akses ke TPU yang mendasarinya. Anda memiliki akses root ke VM, sehingga Anda dapat menjalankan kode arbitrer. Anda dapat mengakses log debug dan pesan error compiler dan runtime.

Arsitektur VM TPU

Host tunggal, multi-host, dan sub-host

Host TPU adalah VM yang berjalan di komputer fisik yang terhubung ke hardware TPU. Workload TPU dapat menggunakan satu atau beberapa host.

Workload host tunggal dibatasi untuk satu VM TPU. Workload multi-host mendistribusikan pelatihan ke beberapa VM TPU. Workload sub-host tidak menggunakan semua chip di VM TPU.

Visualisasi topologi TPU

Visualisasi topologi TPU adalah alat yang memungkinkan Anda memvisualisasikan tata letak fisik TPU dan infrastruktur jaringan terkaitnya dalam pusat data fisik. Gunakan alat ini untuk memahami tata letak infrastruktur fisik untuk berbagai generasi dan topologi TPU.

Arsitektur TPU

Bagaimana cara kerja TPU?

Cara kerja CPU

Cara kerja GPU

Cara kerja TPU

Arsitektur sistem TPU

Chip TPU

Pod TPU

Slice

Topologi

Multislice versus slice tunggal

Kubus TPU

SparseCore

Resiliensi ICI Cloud TPU

Versi TPU

Arsitektur cloud TPU

Arsitektur VM TPU

Host tunggal, multi-host, dan sub-host

Visualisasi topologi TPU

Langkah berikutnya