Grup instance terkelola (MIG) mengotomatiskan pembuatan, konfigurasi, dan pengelolaan siklus proses kumpulan VM. MIG memberikan manfaat seperti ketersediaan tinggi melalui autohealing dan deployment regional (multi-zona), penskalaan otomatis untuk menangani beban yang bervariasi, dan update berkelanjutan yang disederhanakan untuk aplikasi. Untuk mengetahui informasi selengkapnya, lihat Grup instance terkelola.
Anda dapat menggunakan MIG untuk membuat dan mengelola VM TPU untuk TPU versi v5p dan yang lebih baru. Anda dapat membuat MIG dengan satu VM TPU, VM TPU independen (juga disebut slice host tunggal) dan MIG dengan VM TPU yang saling terhubung (juga disebut slice multi-host).
Setiap slice dalam MIG host tunggal memiliki paling banyak satu VM TPU. VM TPU dalam MIG tidak terhubung dengan link inter-chip interconnect (ICI).
Slice multi-host berisi beberapa VM TPU yang saling terhubung dengan link ICI.
MIG dengan satu instance VM TPU
Anda dapat membuat dan mengelola VM TPU individual menggunakan MIG dengan menetapkan ukuran target MIG ke satu. Pendekatan ini berguna jika Anda ingin menggunakan fitur MIG seperti perbaikan otomatis untuk satu instance. Untuk mengetahui informasi selengkapnya, lihat Membuat MIG dengan slice TPU host tunggal.
MIG dengan slice TPU host tunggal
Membuat grup instance terkelola (MIG) dengan beberapa instance TPU independen bermanfaat untuk workload yang memerlukan beberapa VM TPU individual, tetapi tidak memerlukan VM tersebut untuk saling terhubung dengan link ICI untuk workload terdistribusi. Misalnya:
- Penayangan inferensi: Setiap VM di MIG dapat menangani permintaan inferensi secara independen. MIG memungkinkan Anda menskalakan jumlah instance penayangan berdasarkan permintaan dan mengelolanya sebagai grup.
- Tugas independen paralel: MIG menyediakan cara untuk mengelola banyak tugas pelatihan kecil dan independen atau komputasi lain yang dapat berjalan secara paralel di VM TPU tunggal.
- Pengelolaan: MIG menyediakan fitur berikut:
- Deployment: Tentukan template instance satu kali dan gunakan MIG untuk membuat beberapa VM TPU yang identik.
- Skalabilitas: Sesuaikan jumlah VM TPU dengan mengubah ukuran MIG.
- Update berkelanjutan: Update software atau jenis mesin di semua VM secara terkontrol.
- Efektivitas biaya: Untuk tugas yang tidak memerlukan daya atau interkonektivitas penuh dari slice TPU besar, penggunaan beberapa slice TPU yang lebih kecil dan independen dapat lebih hemat biaya.
Untuk mengetahui informasi selengkapnya, lihat Membuat MIG dengan slice TPU host tunggal.
MIG dengan slice multi-host
Tidak seperti grup slice TPU independen, MIG yang dikonfigurasi untuk slice multi-host mengelola sekumpulan VM TPU yang terhubung erat melalui link ICI. Tindakan ini akan membuat satu slice TPU logis.
Manfaat dan performa
MIG untuk slice TPU multi-host memberikan skala dan performa yang diperlukan untuk workload machine learning intensif.
- Pelatihan terdistribusi: Pelatihan model machine learning sering kali memerlukan daya TPU yang lebih besar daripada yang dapat disediakan oleh satu VM TPU. Slice TPU yang lebih besar mendistribusikan komputasi ke banyak chip dan VM TPU, dengan link ICI yang memungkinkan komunikasi cepat di antara keduanya. Hal ini sangat penting untuk performa pelatihan.
- Bandwidth interkoneksi tinggi: Jaringan ICI memberikan bandwidth yang lebih tinggi dan latensi yang lebih rendah antara chip TPU dalam slice daripada jaringan pusat data (DCN) standar. Hal ini penting untuk operasi sinkron yang umum dalam pelatihan model besar.
Operasi siklus proses atomik
Untuk memastikan integritas topologi yang saling terhubung, MIG mengelola seluruh slice sebagai satu unit yang tidak dapat dibagi selama siklus prosesnya.
- Pembuatan: Semua VM dalam slice disediakan bersama-sama. Jika kapasitas yang saling terhubung dan berfungsi dengan baik tidak tersedia dalam jumlah yang cukup untuk seluruh topologi yang diminta, slice tidak akan dibuat.
- Penghapusan: MIG menghapus seluruh slice sebagai satu unit.
- Mengubah ukuran: Mengubah ukuran dibatasi untuk penskalaan dari 0 hingga ukuran irisan penuh, atau dari ukuran irisan penuh kembali ke 0. Anda tidak dapat mengubah ukuran slice multi-VM sebagian.
Persyaratan konfigurasi
Mengonfigurasi MIG multi-host memerlukan penentuan topologi interkoneksi fisik dan properti instance individual.
- Kebijakan workload: Anda harus menentukan kebijakan workload dengan parameter
accelerator-topology(misalnya, 4x4, 8x8, atau 4x4x4). Tindakan ini mengonfigurasi MIG untuk memperlakukan instance sebagai satu slice yang saling terhubung. Untuk mengetahui informasi tentang topologi, lihat Topologi TPU. - Template instance: Menentukan properti seperti jenis mesin, image disk, dan setelan lainnya untuk setiap VM dalam slice.
Ketersediaan slice dan pemulihan kegagalan
Saat Anda menggunakan MIG untuk membuat slice TPU multi-host, MIG akan otomatis
mengelola proses pemulihan slice. Jika terjadi kegagalan host atau ICI, slice akan bertransisi ke status REACTIVATING. Semua VM dalam slice akan bertransisi ke status REPAIRING, meskipun tidak harus secara bersamaan. MIG kemudian akan otomatis memulai ulang VM bersama-sama pada kapasitas yang responsif untuk memulihkan slice.
Namun, saat Anda menggunakan Spot VM, preemption akan menyebabkan instance dihentikan. MIG tidak otomatis mengaktifkan kembali slice.
Pemulihan kegagalan dari gangguan instance
Jika Anda menghapus atau menghentikan instance TPU, atau menghentikan instance dari dalam
sistem operasi, maka slice akan bertransisi ke status FAILED. Dalam
skenario ini, slice tetap dalam status FAILED hingga Anda membuat ulang slice.
Untuk membuat ulang slice, Anda harus menghapus dan membuat ulang MIG, atau mengubah ukuran MIG menjadi 0, lalu menambah ukurannya.
Untuk mengetahui informasi selengkapnya tentang status slice, lihat Melihat status slice TPU.
Batasan
Bagian berikut menjelaskan batasan untuk membuat MIG dengan VM TPU.
Batasan untuk template instance
Template instance yang menentukan jenis mesin TPU memiliki batasan berikut:
Saat menggunakan model penyediaan terikat reservasi, Anda harus menetapkan tindakan penghentian instance ke hapus.
TPU hanya dapat menggunakan reservasi yang ditargetkan secara khusus.
Anda tidak dapat menentukan kebijakan penempatan.
Saat menggunakan template instance untuk membuat MIG untuk slice TPU multi-host, Anda tidak dapat menonaktifkan restart otomatis dengan menyetel kolom
scheduling.automaticRestartkefalse. Batasan ini berlaku untuk model penyediaan standar, flex-start, dan terikat reservasi.
Batasan untuk MIG
MIG dengan TPU memiliki batasan berikut:
Operasi siklus proses: Anda tidak dapat menghentikan, memulai, melanjutkan, atau menangguhkan instance TPU. Untuk mengubah konfigurasi yang memerlukan mulai ulang atau untuk berhenti dikenai biaya, Anda harus menghapus instance.
Distribusi zona MIG regional: Anda harus menetapkan bentuk distribusi target ke
ANY_SINGLE_ZONE.Update konfigurasi di MIG:
- Anda tidak dapat mengupdate MIG yang membentuk slice TPU multi-host karena topologi akselerator yang ditentukan.
- Anda dapat mengupdate MIG yang membentuk slice TPU host tunggal menggunakan
metode otomatis atau selektif.
Namun, update untuk slice TPU host tunggal tidak mendukung tindakan mulai ulang (
RESTART). Jika perlu dimulai ulang dan tindakan paling mengganggu yang diizinkan adalah penggantian (REPLACE), updater akan mengganti instance; jika tidak, upaya update akan gagal dengan error.
Untuk MIG yang membentuk slice TPU multi-host, batasan berikut juga berlaku:
Kebijakan ukuran target: Anda harus menetapkan mode kebijakan ukuran target ke
BULK. Setelah Anda menetapkan mode ini, Anda tidak dapat mengubahnya.Ukuran target: Dalam mode massal, Anda dapat menetapkan ukuran target ke
0atau jumlah instance yang diperlukan untuk membentuk topologi akselerator.Kebijakan workload: Anda harus menentukan kebijakan workload tempat topologi akselerator ditentukan. Setelah menetapkan kebijakan workload, Anda tidak dapat mengubah atau menghapus kebijakan dari MIG.
Fitur yang tidak didukung: MIG dengan TPU tidak mendukung fitur berikut:
- Fleksibilitas instance
- Permintaan pengubahan ukuran untuk mendapatkan semua resource sekaligus
- Konfigurasi stateful
- Untuk MIG yang membentuk slice TPU multi-host, hal berikut juga tidak didukung:
Langkah berikutnya
- Pelajari cara Membuat MIG dengan slice TPU host tunggal
- Pelajari cara Membuat MIG dengan slice TPU multi-host