Dokumen ini menjelaskan konfigurasi di AI Hypercomputer yang perlu dipertimbangkan sebelum Anda membuat instance dan cluster Compute Engine. Meninjau konfigurasi yang tersedia akan membantu memastikan performa optimal untuk workload Anda, serta meminimalkan waktu nonaktif dan masalah performa.
Faktor konfigurasi untuk pembuatan instance komputasi dan cluster
Sebelum membuat instance dan cluster komputasi untuk menjalankan workload, pertimbangkan konfigurasi yang akan digunakan:
Jika Anda menggunakan model penyediaan terikat pemesanan, Anda juga harus mempertimbangkan faktor berikut:
Model penyediaan
Terikat pemesanan: Anda dapat memesan resource dengan harga diskon untuk tanggal dan durasi mendatang. Pada awal periode pemesanan, Anda dapat menggunakan resource yang dipesan untuk membuat instance atau cluster. Anda memiliki akses eksklusif ke resource yang dipesan selama periode pemesanan.
Flex-start: Anda dapat meminta resource diskon hingga tujuh hari. Compute Engine melakukan upaya terbaik untuk menjadwalkan penyediaan resource yang Anda minta segera setelah tersedia. Anda memiliki akses eksklusif ke resource yang diperoleh untuk periode yang Anda minta.
Spot: berdasarkan ketersediaan, Anda dapat langsung mendapatkan resource dengan diskon besar. Namun, Compute Engine dapat menghentikan atau menghapus instance kapan saja untuk memulihkan kapasitas.
Model penyediaan terikat pemesanan
Model penyediaan terikat pemesanan menautkan instance komputasi yang Anda buat ke kapasitas yang sebelumnya Anda pesan. Saat Anda memesan kapasitas, Compute Engine akan membuat pemesanan kosong. Kemudian, pada waktu mulai pemesanan, hal berikut akan terjadi:
Compute Engine menambahkan jumlah instance yang Anda pesan ke pemesanan. Anda memiliki akses eksklusif ke kapasitas yang dipesan hingga waktu berakhirnya pemesanan.
Google Cloud menagih Anda untuk kapasitas yang dipesan hingga akhir periode pemesanan, baik Anda menggunakan kapasitas tersebut atau tidak.
Anda kemudian dapat menggunakan resource yang dipesan untuk membuat instance tanpa biaya tambahan. Anda hanya membayar resource yang tidak disertakan dalam pemesanan, seperti disk atau alamat IP.
Untuk menentukan model penyediaan terikat pemesanan saat Anda membuat instance komputasi atau MIG, lakukan hal berikut:
Di Google Cloud konsol, dalam daftar Model penyediaan, pilih Terikat pemesanan.
Di Google Cloud CLI, sertakan flag
--provisioning-model=RESERVATION_BOUNDdalam perintah.Di Compute Engine API, sertakan kolom
"provisioningModel": "RESERVATION_BOUND"di isi permintaan.
Untuk mengetahui informasi selengkapnya tentang cara menetapkan parameter ini saat Anda membuat instance komputasi atau MIG setelah memesan kapasitas, lihat Ringkasan pembuatan instance dan cluster komputasi. Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster, blueprint cluster akan menetapkan model penyediaan untuk Anda.
Model penyediaan flex-start
Model penyediaan flex-start memungkinkan Anda membuat VM Flex-start mandiri atau menambahkan VM Flex-start ke grup instance terkelola (MIG) saat kapasitas yang Anda minta tersedia. Saat Anda menambahkan VM Flex-start ke MIG menggunakan permintaan pengubahan ukuran, MIG akan membuat instance sekaligus. Pendekatan ini membantu Anda menghindari biaya yang tidak perlu untuk kapasitas sebagian yang mungkin diberikan Compute Engine saat Anda menunggu kapasitas penuh yang diperlukan untuk memulai workload. Model penyediaan flex-start menyediakan resource dari kumpulan kapasitas yang aman, yang membantu meningkatkan peluang Anda untuk mendapatkan resource yang sangat diminati seperti GPU.
Untuk menentukan model penyediaan flex-start saat membuat instance mandiri atau template instance untuk MIG, lakukan hal berikut:
Di Google Cloud konsol, dalam daftar Model penyediaan, pilih Flex-start.
Di gcloud CLI, sertakan flag
--provisioning-model=FLEX_STARTdalam perintah.Di Compute Engine API, sertakan
"provisioningModel": "FLEX_START"di isi permintaan.
Untuk mengetahui informasi selengkapnya tentang cara membuat instance atau cluster yang menggunakan model penyediaan flex-start, lihat dokumen berikut:
Membuat cluster Slurm:
Membuat cluster GKE:
Model penyediaan spot
Model penyediaan spot memungkinkan Anda membuat instance komputasi dengan diskon besar berdasarkan ketersediaan. Namun, Compute Engine dapat menghentikan atau menghapus instance yang dibuat kapan saja untuk memulihkan kapasitas. Proses ini disebut preemption.
Untuk menentukan model penyediaan spot saat Anda membuat instance atau MIG, lakukan hal berikut:
Di Google Cloud konsol, dalam daftar Model penyediaan, pilih Spot.
Di gcloud CLI, sertakan flag
--provisioning-model=SPOTdalam perintah.Di Compute Engine API, sertakan
"provisioningModel": "SPOT"kolom di isi permintaan.
Untuk mengetahui informasi selengkapnya tentang cara menetapkan parameter ini saat Anda membuat instance komputasi atau MIG, lihat Ringkasan pembuatan instance komputasi dan cluster.
Alat deployment cluster
Cluster Toolkit adalah alat deployment open source yang direkomendasikan untuk membuat cluster yang dipercepat GPU. Cluster Toolkit dapat men-deploy cluster Google Kubernetes Engine (GKE) atau Slurm.
Atau, Anda dapat memilih untuk menyediakan grup instance komputasi menggunakan salah satu metode berikut, lalu menggabungkan workload scheduler Anda sendiri sesuai kebutuhan:
Jenis deployment blok pemesanan
Jika Anda menggunakan model penyediaan terikat pemesanan saat membuat instance atau cluster komputasi A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU), mesin yang Anda terima akan otomatis di-deploy dalam blok host yang dialokasikan secara padat. Deployment ini menawarkan manfaat berikut:
Jaringan non-pemblokiran untuk konektivitas instance bandwidth tinggi dan latensi rendah yang konsisten menggunakan fabric jaringan machine learning (ML) dinamis dari Google.
Akses ke topologi jaringan yang memberikan tampilan hierarkis kedekatan relatif antar-instance. Fitur ini berguna untuk kasus penggunaan penjadwalan tugas lanjutan.
Penempatan yang terperinci dan mengetahui topologi saat Anda menggunakan orchestrator.
Kontrol pengguna yang terperinci atas jadwal pemeliharaan untuk memaksimalkan penjadwalan tugas dan waktu aktif, serta meminimalkan waktu nonaktif.
Mode operasional pemesanan
Jika Anda menggunakan model penyediaan terikat pemesanan, maka jenis mesin yang Anda pesan akan menentukan mode operasional pemesanan untuk kapasitas yang Anda pesan. Setiap mode menentukan cara merespons error host atau laporan host yang salah, serta tingkat visibilitas dan kontrol Anda atas infrastruktur pemesanan.
Setiap mode operasional pemesanan menentukan hal berikut:
Siapa yang mengelola pemulihan: Anda atau Google Cloud.
Kapasitas yang Anda gunakan untuk pemulihan: hanya kapasitas yang Anda pesan, atau kapasitas di dalam atau di luar pemesanan Anda.
Tingkat kontrol penempatan Anda: apakah Anda dapat melihat dan memulai pemeliharaan sebelum waktu yang direncanakan untuk sub-blok pemesanan tertentu untuk kontrol yang terperinci.
Saat Anda memesan kapasitas untuk membuat instance atau cluster komputasi, Anda harus memilih salah satu mode operasional pemesanan berikut: mode terkelola atau mode semua kapasitas.
Mode terkelola
Dalam mode terkelola, Google Cloud secara otomatis mengelola proses pemeliharaan dan pemulihan instance komputasi Anda setelah error host atau laporan host yang salah. Pendekatan ini ideal jika workload Anda memerlukan stabilitas tinggi, dan Anda lebih memilih proses otomatis untuk meminimalkan waktu nonaktif.
Mode terkelola memiliki fitur berikut:
Hanya gunakan kapasitas yang dipesan untuk pemulihan: Compute Engine hanya menggunakan kapasitas yang Anda pesan untuk memulai ulang instance. Jika tidak ada kapasitas yang tersedia dalam pemesanan Anda, Compute Engine hanya akan memulai ulang instance setelah Anda mendapatkan lebih banyak kapasitas.
Mulai ulang instance otomatis: Google Cloud menangani seluruh proses pemulihan untuk instance. Jika pemeliharaan host diperlukan, Compute Engine akan otomatis memigrasikan instance Anda ke mesin lain yang tersedia dalam pemesanan Anda dan memulai ulang instance.
Pengelolaan dan visibilitas blok: Anda dapat melihat topologi, kondisi, dan status pemeliharaan pemesanan dan blok pemesanan individual. Anda juga dapat menerima notifikasi pemeliharaan, dan secara opsional memulai pemeliharaan sebelum waktu pemeliharaan terjadwal, untuk resource ini.
Potensi batas frekuensi API: panggilan ke API report faulty host mungkin dibatasi frekuensinya per pemesanan.
Mode semua kapasitas
Dalam mode semua kapasitas, Anda bertanggung jawab untuk mengelola proses pemulihan instance komputasi. Anda harus memulai pemeliharaan secara manual setelah error host atau laporan host yang salah. Tidak seperti mode terkelola, Anda juga dapat melihat dan memulai pemeliharaan untuk sub-blok pemesanan. Fitur ini memberi Anda kontrol penuh dan terperinci atas proses pemeliharaan dan pemulihan untuk instance Anda.
Mode semua kapasitas memiliki fitur berikut:
Gunakan kapasitas yang dipesan dan tidak dipesan untuk pemulihan: Anda dapat menggunakan resource yang dipesan, serta resource apa pun yang tersedia di luar pemesanan Anda, untuk membantu Anda memigrasikan dan memulai ulang instance saat host-nya gagal.
Mulai ulang instance manual: Anda bertanggung jawab atas proses pemulihan instance. Jika pemeliharaan host diperlukan karena error host atau laporan host yang salah, Compute Engine akan menghentikan instance Anda. Anda hanya dapat memulai ulang instance setelah pemeliharaan selesai.
Pengelolaan dan visibilitas blok dan sub-blok: Anda dapat melihat topologi, kondisi, dan status pemeliharaan pemesanan individual, blok pemesanan, dan sub-blok pemesanan. Anda juga dapat menerima notifikasi pemeliharaan, dan secara opsional memulai pemeliharaan sebelum waktu pemeliharaan terjadwal, untuk resource ini.
Tidak ada batas frekuensi API: tidak ada batas frekuensi saat Anda melakukan panggilan ke API report faulty host.
Jenis penjadwalan pemeliharaan
Jika Anda menggunakan model penyediaan terikat pemesanan, maka Cluster Director akan memberikan opsi untuk menjadwalkan pemeliharaan host untuk instance komputasi yang berjalan di cluster Anda. Saat Anda memesan kapasitas, Anda dapat menentukan apakah akan mengelompokkan instance dan memiliki penjadwalan pemeliharaan yang disinkronkan (dikelompokkan), atau instance dapat digabungkan secara longgar dan memiliki penjadwalan pemeliharaan yang independen (independen).
Penjadwalan pemeliharaan yang dikelompokkan
Jenis penjadwalan pemeliharaan yang dikelompokkan membantu memastikan bahwa, kapan pun Compute Engine menyediakan instance komputasi, semua instance yang menjalankan workload yang sama memiliki frekuensi pemeliharaan terencana yang sama. Pemeliharaan yang digabungkan secara ketat ini memungkinkan Anda mengoptimalkan performa tugas dengan memberi Anda kontrol penuh atas kapasitas yang digunakan dan tidak digunakan.
Jenis penjadwalan pemeliharaan grup berguna dalam kasus berikut:
Lingkungan Anda menggunakan penjadwal tugas, seperti Slurm atau GKE.
Anda ingin menjalankan pelatihan atau workload komputasi yang sangat diparalelkan lainnya.
Penjadwalan pemeliharaan independen
Jenis penjadwalan pemeliharaan independen ini memberikan jadwal pemeliharaan yang berbeda untuk instance. Konfigurasi ini ideal jika Anda ingin menjalankan inferensi atau pelatihan skala terbatas yang workload-nya berjalan lebih efisien jika memiliki jadwal pemeliharaan terpisah.