Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan TPU Cluster Director

TPU Cluster Director dirancang untuk memberi Anda kontrol langsung berbasis reservasi atas akselerator AI Anda. Google Cloud Untuk Cloud TPU, kemampuan dasar Cluster Director menyediakan tingkat layanan yang melampaui penawaran multi-tenant untuk memberikan kapasitas TPU yang terisolasi secara fisik:

Kapasitas terdedikasi yang ditempatkan bersama secara fisik: Anda mendapatkan reservasi TPU yang padat dan ditempatkan bersama, sehingga Anda memiliki kontrol penuh atas hardware untuk performa jaringan dan penjadwalan workload yang optimal.
Pemeliharaan dan kontrol lanjutan: Anda mendapatkan kontrol yang tepat atas peristiwa pemeliharaan, dengan kemampuan untuk menargetkan VM, kubus, Pod, atau seluruh reservasi tertentu, dan untuk mengelola urutan dan kecepatan peristiwa ini guna meminimalkan dampak bisnis.
Penjadwalan yang sesuai dengan topologi: Anda mendapatkan gambaran lengkap tentang topologi fisik, kondisi, dan pemanfaatan hardware, sehingga memungkinkan penempatan beban kerja yang lebih cerdas dan berbasis performa.

Dasar-dasar Cluster Director terintegrasi sepenuhnya dengan Google Kubernetes Engine. Integrasi ini menawarkan beberapa fitur untuk meningkatkan kualitas workload AI berskala besar:

Peningkatan efisiensi, fault tolerance, dan ketahanan: menyediakan lingkungan yang andal untuk tugas AI yang berat.
Penempatan workload dan node pool yang kompatibel dengan topologi: reservasi padat yang ditempatkan bersama memungkinkan Anda menargetkan Pod atau kubus tertentu. Hal ini memungkinkan penjadwalan beban kerja yang lebih terperinci.

Dengan fondasi Cluster Director di GKE, Anda akan mendapatkan manfaat dari pemanfaatan yang lebih baik, performa dan skalabilitas workload yang lebih tinggi, peningkatan goodput dan keandalan, serta kemampuan observasi yang komprehensif ke dalam kapasitas fisik (dari host hingga cluster GKE).

Dasar-dasar Cluster Director TPU di GKE tersedia melalui pemesanan mode Semua Kapasitas yang baru.

Mode Semua Kapasitas

Secara default, kapasitas TPU ditawarkan melalui mode "terkelola", di mana Google secara otomatis mengganti mesin TPU yang rusak, tetapi menahan sebagian kapasitas yang Anda pesan untuk membantu memastikan slice TPU Anda memiliki resource yang diperlukan untuk memulai ulang. Ada mode kapasitas alternatif untuk TPU yang dikenal sebagai mode "Semua Kapasitas". Dalam mode kapasitas ini, Anda memiliki visibilitas penuh ke topologi hardware TPU, status pemanfaatan, dan status kondisi kapasitas yang dicadangkan. Anda juga memiliki akses ke kapasitas yang dipesan sepenuhnya, tetapi Anda bertanggung jawab untuk mengelola kegagalan dan pemeliharaan terencana.

Fitur utama mode Semua Kapasitas meliputi:

Kontrol dan visibilitas penuh: Anda memiliki kontrol penuh atas kapasitas yang dicadangkan dan visibilitas penuh terhadap kondisi dan topologi hardware Anda. Artinya, Anda dapat melihat semua kapasitas yang tersedia, termasuk penahanan, dan mengelola kegagalan mesin secara langsung.
Kapasitas khusus: Anda dapat mengakses kapasitas khusus yang selalu tersedia untuk beban kerja AI Anda. Dengan kapasitas penuh dan tanpa penangguhan, Anda akan mendapatkan prediktabilitas yang lebih besar dan alokasi yang lebih tinggi, yang berarti Anda dapat memanfaatkan setiap bit kapasitas TPU yang dicadangkan. Sekarang, kapasitas penahanan Anda juga dapat diakses untuk menjalankan workload prioritas rendah.
Performa yang dioptimalkan: Mode Semua Kapasitas TPU menyediakan kolokasi padat resource akselerator besar dengan jaringan latensi sangat rendah, yang sangat penting untuk workload ML dan HPC berskala besar yang terkait erat. Arsitektur dioptimalkan untuk performa maksimum dalam beban kerja pelatihan dan inferensi.

Generasi TPU yang didukung

Mode dan fitur Semua Kapasitas TPU tersedia di Trillium (TPU v6e), TPU Ironwood (TPU7x), dan generasi TPU mendatang. Mode Semua Kapasitas TPU tidak didukung untuk generasi TPU yang lebih lama.

Terminologi TPU Cluster Director

Topologi Cluster Director terdiri dari empat tingkat: cluster, block, sub-block, dan host. Cluster adalah unit deployment Google dengan kapasitas TPU fisik dalam kelipatan Pod. Semua kapasitas TPU dalam cluster berada dalam satu zona. Pemesanan TPU dalam mode Semua Kapasitas selalu berada dalam satu Cluster. Untuk TPU, konsep topologi lainnya dipetakan ke komponen fisik seperti yang ditunjukkan dalam tabel berikut.

Trillium

Konsep topologi	Trillium	Cores	Chip	Host
---	Chip	1	1	T/A
Host	Host	8	8	1
Sub-blok	Pod Trillium	256	256	32
Blokir	Beberapa Trillium Pod (hingga 16) dalam satu reservasi	Hingga 4096	Hingga 4096	Hingga 512
---	Slice yang diizinkan dalam sub-blok	1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16, dan 16x16
---	Satu reservasi dapat memiliki beberapa blok dan setiap blok dapat memiliki 1 hingga 16 Pod Trillium

Untuk mengetahui informasi selengkapnya tentang ukuran irisan Trillium, lihat Konfigurasi yang didukung Trillium.

Ironwood

Konsep topologi	Ironwood	Cores	Chip	Host
---	Chip	2	1	---
Host	Host	8	4	1
Sub-blok	Kubus	128	64	16
Blokir	Beberapa kubus Ironwood hingga Pod penuh		Hingga 9216 (144 kubus)	Hingga 2304
---	Contoh ukuran slice yang diizinkan dalam blok	1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8, dan 12x24x24 (dan banyak lagi)
---	Reservasi dapat memiliki satu atau beberapa kubus Ironwood, hingga Ironwood Pod penuh.

Untuk mengetahui informasi selengkapnya tentang ukuran slice Ironwood, lihat Konfigurasi yang didukung TPU7x.