Tentang pengirisan dinamis GKE

Dokumen ini menjelaskan dynamic slicing di Google Kubernetes Engine (GKE). Dynamic slicing memungkinkan Anda mengonfigurasi TPU yang disediakan sub-blok ke dalam topologi yang berbeda. Kemampuan ini mengurangi kebutuhan untuk membuat ulang node pool, meningkatkan toleransi fault dengan memungkinkan pemulihan otomatis saat terjadi kegagalan, dan mengoptimalkan pemanfaatan resource.

Dynamic slicing ditujukan untuk engineer AI/ML dan administrator platform yang ingin mengoptimalkan pemanfaatan TPU, mengurangi waktu penyediaan, dan meningkatkan toleransi fault untuk workload pelatihan dan inferensi skala besar.

Sebelum membaca dokumen ini, Anda harus memahami hal berikut:

Apa yang dimaksud dengan dynamic slicing?

Dynamic slicing memberikan fleksibilitas dalam mengelola kapasitas Cloud TPU dengan memungkinkan Anda memisahkan penyediaan TPU. Dynamic slicing melibatkan proses berikut:

  1. Menyediakan resource sebagai unit yang lebih kecil: Anda menyediakan resource sebagai unit yang disebut sub-blok. Sub-blok adalah unit bangunan logis mendasar dari kapasitas Ironwood (TPU7x). Untuk Ironwood (TPU7x), sub-blok mewakili grup 16 node VM TPU dengan topologi 4x4x4 chip TPU yang saling terhubung. Dalam konteks mode Semua Kapasitas TPU dan dynamic slicing, node pool dipetakan langsung ke sub-blok.
  2. Menyatukan sub-blok: dynamic slicing menyatukan sub-blok ini menjadi slice yang lebih besar.

Manfaat dynamic slicing

Dynamic slicing membantu Anda mencapai hal berikut:

  • Mengurangi waktu penyediaan: menyediakan sub-blok secara individual akan mempercepat penyediaan secara keseluruhan karena meminimalkan dampak dari satu kegagalan.
  • Mengurangi waktu pemulihan: jika terjadi kegagalan chip TPU, unit kegagalan terkecil adalah sub-blok. Dynamic slicing mengisolasi sub-blok yang rusak sehingga workload dapat dijadwalkan ulang pada sub-blok yang sehat lebih cepat daripada menyediakan ulang seluruh slice besar.
  • Mengubah bentuk kapasitas: jika Anda memiliki persyaratan workload yang beragam, Anda tidak perlu menghapus dan membuat ulang node pool untuk perubahan topologi. Sebagai gantinya, Anda dapat mengonfigurasi ulang node pool yang disediakan secara dinamis agar sesuai dengan bentuk yang ditentukan.

Elemen utama dynamic slicing

Dynamic slicing memperkenalkan konsep utama berikut:

  • Penyediaan node pool inkremental: dynamic slicing menggunakan penyediaan inkremental, yang merupakan model penyediaan node pool yang toleran terhadap fault. Model ini mengonversi semua kapasitas TPU Anda menjadi node pool grup 16 node VM TPU.
  • Pengontrol slice: pengontrol Resource Kustom Kubernetes yang berjalan dalam bidang kontrol GKE yang mengelola dynamic slicing. Pengontrol slice mengelola siklus proses Resource kustom Slice, yang mewakili slice dinamis. Pengontrol slice menangani pembuatan, pemantauan berkelanjutan, dan penghapusan Slice. Saat Anda menggunakan penjadwal, penjadwal akan mengarahkan pembuatan dan penghapusan resource kustom Slice.
  • Resource kustom slice: menyatukan sub-blok secara dinamis berdasarkan topologi TPU yang diminta. Proses ini bergantung pada konfigurasi ulang dinamis jaringan OCS untuk menghubungkan node pool TPU, yang membantu memastikan performa yang dioptimalkan. Anda dapat memeriksa progres atau status pembentukan slice dinamis dengan memeriksa kolom status resource kustom Slice.

Penjadwal untuk dynamic slicing

Anda dapat mengonfigurasi Kueue dan Topology Aware Scheduling (TAS) untuk membuat resource kustom Slice secara otomatis. Anda juga dapat menggunakan penjadwal Anda sendiri untuk mengelola resource kustom Slice.

Langkah berikutnya