Ringkasan Cluster Director TPU

TPU Cluster Director dirancang untuk memberi Anda kontrol langsung berbasis reservasi atas akselerator AI Anda. Google Cloud Untuk Cloud TPU, kemampuan dasar Cluster Director menyediakan tingkat layanan baru yang melampaui penawaran multi-tenant untuk memberikan kapasitas TPU yang terisolasi secara fisik:

  • Kapasitas khusus yang ditempatkan bersama secara fisik: Kami kini menawarkan reservasi TPU yang padat dan ditempatkan bersama, sehingga Anda memiliki kontrol penuh atas hardware untuk performa jaringan dan penjadwalan beban kerja yang optimal.
  • Pemeliharaan dan kontrol lanjutan: Anda mendapatkan kontrol yang tepat atas peristiwa pemeliharaan, dengan kemampuan untuk menargetkan VM, kubus, Pod, atau seluruh reservasi tertentu, dan untuk mengelola urutan dan kecepatan peristiwa ini guna meminimalkan dampak bisnis.
  • Penjadwalan yang mendukung topologi: Anda mendapatkan gambaran lengkap tentang topologi fisik, kondisi, dan pemanfaatan hardware, sehingga memungkinkan penempatan beban kerja yang lebih cerdas dan berbasis performa.

Dasar-dasar Cluster Director terintegrasi sepenuhnya dengan Google Kubernetes Engine. Integrasi ini menawarkan beberapa fitur untuk meningkatkan workload AI berskala besar:

  • Peningkatan efisiensi, fault tolerance, dan ketahanan - menyediakan lingkungan yang andal untuk tugas AI yang berat.
  • Penempatan workload dan node pool yang kompatibel dengan topologi. - pemesanan padat yang ditempatkan bersama memungkinkan Anda menargetkan pod atau kubus tertentu. Hal ini memungkinkan penjadwalan beban kerja yang lebih terperinci.

Dengan fondasi Cluster Director di GKE, Anda dapat memanfaatkan utilisasi yang lebih baik, performa dan skalabilitas workload yang lebih tinggi, goodput dan keandalan yang lebih baik, serta kemampuan pengamatan yang komprehensif terhadap kapasitas fisik (dari host hingga cluster GKE).

Dasar-dasar Cluster Director TPU di GKE tersedia melalui pemesanan mode Semua Kapasitas yang baru.

Mode Semua Kapasitas

Sebelumnya, kapasitas TPU ditawarkan melalui mode "terkelola", di mana Google secara otomatis mengganti mesin TPU yang rusak, tetapi menahan sebagian kapasitas yang dipesan untuk membantu memastikan slice TPU Anda memiliki resource yang diperlukan untuk memulai ulang. Google kini memperkenalkan mode kapasitas baru untuk TPU yang dikenal sebagai mode "Semua Kapasitas". Dalam mode kapasitas ini, Anda memiliki visibilitas penuh ke topologi hardware TPU, status pemanfaatan, dan status kondisi kapasitas yang dicadangkan. Anda juga memiliki akses ke kapasitas yang dipesan penuh, tetapi Anda bertanggung jawab untuk mengelola kegagalan dan pemeliharaan terencana.

Fitur utama Mode Semua Kapasitas meliputi:

  • Kontrol dan visibilitas penuh: Anda memiliki kontrol penuh atas kapasitas yang dicadangkan dan visibilitas penuh terhadap kondisi dan topologi hardware Anda. Artinya, Anda dapat melihat semua kapasitas yang tersedia, termasuk penahanan, dan mengelola kegagalan mesin secara langsung.
  • Kapasitas khusus: Anda dapat mengakses kapasitas khusus yang selalu tersedia untuk beban kerja AI Anda. Dengan kapasitas penuh dan tanpa penangguhan, Anda mendapatkan prediktabilitas yang lebih besar dan alokasi yang lebih tinggi, yang berarti Anda dapat memanfaatkan setiap bit kapasitas TPU yang dicadangkan. Sekarang, kapasitas penahanan Anda juga dapat diakses untuk menjalankan workload prioritas rendah.
  • Performa yang dioptimalkan: Mode Semua Kapasitas TPU menyediakan kolokasi padat resource akselerator besar dengan jaringan latensi sangat rendah, yang sangat penting untuk workload ML dan HPC berskala besar yang terhubung erat. Arsitektur ini dioptimalkan untuk performa maksimum dalam beban kerja pelatihan dan inferensi.

Generasi TPU yang Didukung

Mode dan fitur Semua Kapasitas TPU tersedia di Trillium (tpu v6e), TPU Ironwood (tpu7x), dan generasi TPU mendatang. Dukungan untuk generasi TPU yang lebih lama tidak direncanakan.

Terminologi TPU Cluster Director

Konsep topologi Cluster Director terdiri dari empat tingkat: Cluster, Block, Sub-block, dan Host. Cluster adalah unit deployment Google dengan kapasitas TPU fisik dalam kelipatan pod. Semua kapasitas TPU dalam cluster berada dalam satu zona. Pemesanan TPU dalam mode Semua Kapasitas selalu berada dalam satu Cluster. Untuk TPU, konsep topologi lainnya dipetakan ke komponen fisik seperti yang ditunjukkan dalam tabel berikut.

Trillium

Konsep topologi Trillium Cores Chip Host
--- Chip 1 1 T/A
Host Host 8 8 1
Sub-blok Pod Trillium 256 256 32
Blokir Beberapa Trillium Pod (hingga 16) dalam satu reservasi

Hingga 4096

Hingga 4096

Hingga 512

--- Slice yang diizinkan dalam sub-blok 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16, dan 16x16
--- Satu reservasi dapat memiliki beberapa blok dan setiap blok dapat memiliki 1 hingga 16 Trillium Pod

Untuk mengetahui informasi selengkapnya tentang ukuran slice Trillium, lihat Konfigurasi yang didukung Trillium.

Ironwood

Konsep topologi Ironwood Cores Chip Host
--- Chip 2 1 ---
Host Host 8 4 1
SubBlock Kubus 128 64 16
Blokir Beberapa kubus Ironwood hingga Pod penuh Hingga 9216 (144 kubus) Hingga 2304
--- Slice yang Diizinkan dalam Blok: Contoh 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8, dan 12x24x24 (dan banyak lagi)
--- Reservasi dapat memiliki satu atau beberapa kubus Ironwood, hingga Ironwood Pod penuh.

Untuk mengetahui informasi selengkapnya tentang ukuran slice Ironwood, lihat Konfigurasi yang didukung TPUv7x.