Dokumen ini menjelaskan pengirisan dinamis di Google Kubernetes Engine (GKE). Dengan slicing dinamis, Anda dapat mengonfigurasi sub-blok TPU yang disediakan ke dalam topologi yang berbeda. Kemampuan ini mengurangi kebutuhan untuk membuat ulang kumpulan node, meningkatkan toleransi fault dengan memungkinkan pemulihan otomatis saat terjadi kegagalan, dan mengoptimalkan pemanfaatan resource.
Pengirisan dinamis ditujukan untuk engineer AI/ML dan administrator platform yang ingin mengoptimalkan pemanfaatan TPU, mengurangi waktu penyediaan, dan meningkatkan toleransi kesalahan untuk workload pelatihan dan inferensi skala besar.
Sebelum membaca dokumen ini, Anda harus memahami hal-hal berikut:
- TPU di GKE.
- TPU Cluster Director. Pengirisan dinamis adalah fitur TPU yang diaktifkan oleh TPU Cluster Director.
- Semua reservasi mode Semua Kapasitas. Fitur pengirisan dinamis tersedia secara eksklusif di TPU yang menggunakan mode Semua Kapasitas.
Apa itu pengirisan dinamis?
Pengirisan dinamis memberikan fleksibilitas dalam mengelola kapasitas Cloud TPU dengan memungkinkan Anda memisahkan penyediaan TPU. Pengirisan dinamis melibatkan proses berikut:
- Menyediakan resource sebagai unit yang lebih kecil: Anda menyediakan resource sebagai unit yang disebut sub-block. Sub-blok
adalah unit penyusun logis mendasar dari kapasitas Ironwood (TPU7x).
Untuk Ironwood (TPU7x), sub-blok merepresentasikan grup 16 node VM TPU dengan topologi
4x4x4chip TPU yang saling terhubung. Dalam konteks mode Semua Kapasitas TPU dan slicing dinamis, node pool dipetakan langsung ke sub-blok. - menggabungkan sub-blok: pengirisan dinamis menggabungkan sub-blok ini menjadi irisan yang lebih besar.
Manfaat pengirisan dinamis
Pengelompokan dinamis membantu Anda mencapai hal berikut:
- Mengurangi waktu penyediaan: menyediakan sub-blok satu per satu akan menghasilkan penyediaan keseluruhan yang lebih cepat karena meminimalkan dampak dari setiap kegagalan tunggal.
- Mengurangi waktu pemulihan: jika terjadi kegagalan chip TPU, unit kegagalan terkecil adalah sub-blok. Pengelompokan dinamis mengisolasi sub-blok yang rusak sehingga workload dapat dijadwalkan ulang pada sub-blok yang berfungsi dengan lebih cepat daripada memulihkan seluruh slice besar.
- Mengubah kapasitas: jika memiliki beragam persyaratan workload, Anda tidak perlu menghapus dan membuat ulang node pool untuk perubahan topologi. Sebagai gantinya, Anda dapat mengonfigurasi ulang node pool yang disediakan secara dinamis agar sesuai dengan bentuk yang ditentukan.
Elemen utama pengelompokan dinamis
Pengelompokan dinamis memperkenalkan konsep utama berikut:
- Penyediaan inkremental node pool: pengirisan dinamis menggunakan penyediaan inkremental, yang merupakan model penyediaan node pool yang toleran terhadap kesalahan. Model ini mengonversi semua kapasitas TPU Anda menjadi node pool grup VM TPU 16 node.
- Pengontrol slice: pengontrol Resource Kustom Kubernetes yang berjalan dalam bidang kontrol GKE yang mengelola slicing dinamis. Pengontrol slice mengelola siklus proses resource kustom Slice, yang merepresentasikan slice dinamis. Pengontrol slice menangani pembuatan, pemantauan berkelanjutan, dan penghapusan Slice. Saat Anda menggunakan penjadwal, penjadwal mengarahkan pembuatan dan penghapusan resource kustom Slice.
- Resource kustom slice: menggabungkan sub-blok secara dinamis berdasarkan topologi TPU yang diminta. Proses ini mengandalkan konfigurasi ulang dinamis jaringan OCS untuk menghubungkan kumpulan node TPU, yang membantu memastikan performa yang dioptimalkan. Anda dapat memeriksa progres atau kondisi pembentukan slice dinamis dengan memeriksa kolom status resource kustom Slice.
Penjadwal untuk pengirisan dinamis
Anda dapat mengonfigurasi Kueue dan Topology Aware Scheduling (TAS) untuk otomatis membuat resource kustom Slice. Anda juga dapat menggunakan penjadwal Anda sendiri untuk mengelola resource kustom Slice.
Langkah berikutnya
- Pelajari cara menggunakan pengirisan dinamis dengan Kueue dan TAS.
- Pelajari TPU Cluster Director lebih lanjut.