Tentang pengirisan dinamis GKE

Dokumen ini menjelaskan pengirisan dinamis di Google Kubernetes Engine (GKE). Dengan slicing dinamis, Anda dapat mengonfigurasi sub-blok TPU yang disediakan ke dalam topologi yang berbeda. Kemampuan ini mengurangi kebutuhan untuk membuat ulang kumpulan node, meningkatkan toleransi fault dengan memungkinkan pemulihan otomatis saat terjadi kegagalan, dan mengoptimalkan pemanfaatan resource.

Pengirisan dinamis ditujukan untuk engineer AI/ML dan administrator platform yang ingin mengoptimalkan pemanfaatan TPU, mengurangi waktu penyediaan, dan meningkatkan toleransi kesalahan untuk workload pelatihan dan inferensi skala besar.

Sebelum membaca dokumen ini, Anda harus memahami hal-hal berikut:

Apa itu pengirisan dinamis?

Pengirisan dinamis memberikan fleksibilitas dalam mengelola kapasitas Cloud TPU dengan memungkinkan Anda memisahkan penyediaan TPU. Pengirisan dinamis melibatkan proses berikut:

  1. Menyediakan resource sebagai unit yang lebih kecil: Anda menyediakan resource sebagai unit yang disebut sub-block. Sub-blok adalah unit penyusun logis mendasar dari kapasitas Ironwood (TPU7x). Untuk Ironwood (TPU7x), sub-blok merepresentasikan grup 16 node VM TPU dengan topologi 4x4x4 chip TPU yang saling terhubung. Dalam konteks mode Semua Kapasitas TPU dan slicing dinamis, node pool dipetakan langsung ke sub-blok.
  2. menggabungkan sub-blok: pengirisan dinamis menggabungkan sub-blok ini menjadi irisan yang lebih besar.

Manfaat pengirisan dinamis

Pengelompokan dinamis membantu Anda mencapai hal berikut:

  • Mengurangi waktu penyediaan: menyediakan sub-blok satu per satu akan menghasilkan penyediaan keseluruhan yang lebih cepat karena meminimalkan dampak dari setiap kegagalan tunggal.
  • Mengurangi waktu pemulihan: jika terjadi kegagalan chip TPU, unit kegagalan terkecil adalah sub-blok. Pengelompokan dinamis mengisolasi sub-blok yang rusak sehingga workload dapat dijadwalkan ulang pada sub-blok yang berfungsi dengan lebih cepat daripada memulihkan seluruh slice besar.
  • Mengubah kapasitas: jika memiliki beragam persyaratan workload, Anda tidak perlu menghapus dan membuat ulang node pool untuk perubahan topologi. Sebagai gantinya, Anda dapat mengonfigurasi ulang node pool yang disediakan secara dinamis agar sesuai dengan bentuk yang ditentukan.

Elemen utama pengelompokan dinamis

Pengelompokan dinamis memperkenalkan konsep utama berikut:

  • Penyediaan inkremental node pool: pengirisan dinamis menggunakan penyediaan inkremental, yang merupakan model penyediaan node pool yang toleran terhadap kesalahan. Model ini mengonversi semua kapasitas TPU Anda menjadi node pool grup VM TPU 16 node.
  • Pengontrol slice: pengontrol Resource Kustom Kubernetes yang berjalan dalam bidang kontrol GKE yang mengelola slicing dinamis. Pengontrol slice mengelola siklus proses resource kustom Slice, yang merepresentasikan slice dinamis. Pengontrol slice menangani pembuatan, pemantauan berkelanjutan, dan penghapusan Slice. Saat Anda menggunakan penjadwal, penjadwal mengarahkan pembuatan dan penghapusan resource kustom Slice.
  • Resource kustom slice: menggabungkan sub-blok secara dinamis berdasarkan topologi TPU yang diminta. Proses ini mengandalkan konfigurasi ulang dinamis jaringan OCS untuk menghubungkan kumpulan node TPU, yang membantu memastikan performa yang dioptimalkan. Anda dapat memeriksa progres atau kondisi pembentukan slice dinamis dengan memeriksa kolom status resource kustom Slice.

Penjadwal untuk pengirisan dinamis

Anda dapat mengonfigurasi Kueue dan Topology Aware Scheduling (TAS) untuk otomatis membuat resource kustom Slice. Anda juga dapat menggunakan penjadwal Anda sendiri untuk mengelola resource kustom Slice.

Langkah berikutnya