Dokumen ini menjelaskan konfigurasi di AI Hypercomputer yang perlu dipertimbangkan sebelum Anda membuat instance dan cluster Compute Engine. Meninjau konfigurasi yang tersedia akan membantu memastikan performa yang optimal untuk beban kerja Anda, serta meminimalkan waktu nonaktif dan masalah performa.
Faktor konfigurasi untuk pembuatan cluster dan instance komputasi
Sebelum membuat instance dan cluster komputasi untuk menjalankan beban kerja, pertimbangkan konfigurasi yang akan digunakan:
Jika menggunakan model penyediaan terikat reservasi, Anda juga harus mempertimbangkan faktor-faktor berikut:
Model penyediaan
Berdasarkan opsi penggunaan yang Anda pilih untuk membuat instance atau cluster komputasi, Anda dapat menggunakan salah satu model penyediaan berikut untuk mendapatkan resource yang diperlukan guna membuat instance:
Terikat dengan reservasi: Anda dapat memesan sumber daya dengan harga diskon untuk tanggal dan durasi mendatang. Di awal periode reservasi, Anda dapat menggunakan resource yang dipesan untuk membuat instance atau cluster. Anda memiliki akses eksklusif ke resource yang dipesan selama periode pemesanan.
Mulai fleksibel: Anda dapat meminta sumber daya yang didiskon hingga tujuh hari. Compute Engine melakukan upaya terbaik untuk menjadwalkan penyediaan resource yang Anda minta segera setelah resource tersebut tersedia. Anda memiliki akses eksklusif ke resource yang diperoleh selama periode yang diminta.
Spot: berdasarkan ketersediaan, Anda bisa langsung mendapatkan resource dengan diskon besar. Namun, Compute Engine dapat menghentikan atau menghapus instance kapan saja untuk memulihkan kapasitas.
Model penyediaan yang terikat dengan reservasi
Model penyediaan yang terikat dengan reservasi menautkan instance komputasi yang Anda buat ke kapasitas yang Anda pesan sebelumnya. Saat Anda memesan kapasitas, Compute Engine akan membuat pemesanan kosong. Kemudian, pada waktu mulai pemesanan, hal berikut akan terjadi:
Compute Engine menambahkan jumlah instance yang Anda pesan ke reservasi. Anda memiliki akses eksklusif ke kapasitas yang dipesan hingga waktu berakhir pemesanan.
Google Cloud menagih Anda untuk kapasitas yang dipesan hingga akhir periode reservasi, terlepas dari apakah Anda menggunakan kapasitas tersebut atau tidak.
Anda kemudian dapat menggunakan resource yang dipesan untuk membuat instance tanpa biaya tambahan. Anda hanya membayar resource yang tidak disertakan dalam reservasi, seperti disk atau alamat IP.
Untuk menentukan model penyediaan terikat reservasi saat Anda membuat instance atau MIG komputasi, lakukan hal berikut:
Di Google Cloud konsol, dalam daftar Provisioning model, pilih Reservation-bound.
Di Google Cloud CLI, sertakan flag
--provisioning-model=RESERVATION_BOUNDdalam perintah.Di Compute Engine API, sertakan kolom
"provisioningModel": "RESERVATION_BOUND"di isi permintaan.
Untuk mengetahui informasi selengkapnya tentang cara menyetel parameter ini saat Anda membuat instance atau MIG setelah mencadangkan kapasitas, lihat Ringkasan pembuatan instance dan cluster Compute. Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster, blueprint cluster akan menetapkan model penyediaan untuk Anda.
Model penyediaan flex-start
Model penyediaan mulai fleksibel memungkinkan Anda membuat VM Mulai fleksibel mandiri atau menambahkan VM Mulai fleksibel ke grup instance terkelola (MIG) saat kapasitas yang Anda minta tersedia. Saat Anda menambahkan VM dengan fitur Mulai fleksibel ke MIG menggunakan permintaan pengubahan ukuran, MIG akan membuat instance sekaligus. Pendekatan ini membantu Anda menghindari biaya yang tidak perlu untuk kapasitas sebagian yang mungkin diberikan Compute Engine saat Anda menunggu kapasitas penuh yang diperlukan untuk memulai workload. Model penyediaan mulai fleksibel menyediakan resource dari kumpulan kapasitas yang aman, yang membantu meningkatkan peluang Anda untuk mendapatkan resource yang sangat diminati seperti GPU.
Untuk menentukan model penyediaan mulai fleksibel saat membuat instance mandiri atau template instance untuk MIG, lakukan hal berikut:
Di Google Cloud konsol, dalam daftar Model penyediaan, pilih Mulai fleksibel.
Di gcloud CLI, sertakan flag
--provisioning-model=FLEX_STARTdalam perintah.Di Compute Engine API, sertakan kolom
"provisioningModel": "FLEX_START"di isi permintaan.
Untuk mengetahui informasi selengkapnya tentang cara membuat instance atau cluster yang menggunakan model penyediaan mulai fleksibel, lihat dokumen berikut:
Buat cluster GKE:
Model penyediaan spot
Model penyediaan spot memungkinkan Anda membuat instance komputasi dengan diskon besar berdasarkan ketersediaan. Namun, Compute Engine dapat menghentikan atau menghapus instance yang dibuat kapan saja untuk memulihkan kapasitas. Proses ini disebut pengambilalihan.
Untuk menentukan model penyediaan spot saat Anda membuat instance atau MIG, lakukan hal berikut:
Di konsol Google Cloud , dalam daftar Provisioning model, pilih Spot.
Di gcloud CLI, sertakan flag
--provisioning-model=SPOTdalam perintah.Di Compute Engine API, sertakan kolom
"provisioningModel": "SPOT"di isi permintaan.
Untuk mengetahui informasi selengkapnya tentang cara menyetel parameter ini saat Anda membuat instance atau MIG, lihat Ringkasan pembuatan instance dan cluster Compute.
Alat deployment cluster
Cluster Toolkit adalah alat deployment open source yang direkomendasikan untuk membuat cluster yang dipercepat oleh GPU. Cluster Toolkit dapat men-deploy cluster Google Kubernetes Engine (GKE) atau Slurm.
Atau, Anda dapat memilih untuk menyediakan grup instance komputasi dengan menggunakan salah satu metode berikut, lalu menggabungkan penjadwal workload Anda sendiri sesuai kebutuhan:
Jenis deployment blok reservasi
Jika Anda menggunakan model penyediaan terikat reservasi saat membuat instance atau cluster komputasi A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU), mesin yang Anda terima akan otomatis di-deploy dalam blok host yang dialokasikan secara padat. Deployment ini memberikan manfaat berikut:
Jaringan non-blocking untuk konektivitas instance latensi rendah dan bandwidth tinggi yang konsisten dengan menggunakan fabric jaringan machine learning (ML) dinamis dari Google.
Akses ke topologi jaringan yang memberikan tampilan hierarkis tentang kedekatan relatif antar-instance. Fitur ini berguna untuk kasus penggunaan penjadwalan tugas lanjutan.
Penempatan sesuai topologi yang terperinci saat Anda menggunakan pengelola.
Kontrol pengguna terperinci atas jadwal pemeliharaan untuk memaksimalkan penjadwalan dan waktu aktif tugas, serta meminimalkan waktu nonaktif.
Mode operasional reservasi
Jika Anda menggunakan model penyediaan terikat pemesanan, maka jenis mesin yang Anda pesan akan menentukan mode operasional pemesanan untuk kapasitas yang dipesan. Setiap mode menentukan cara merespons error host atau laporan host yang salah, serta tingkat visibilitas dan kontrol Anda terhadap infrastruktur reservasi.
Setiap mode operasional reservasi menentukan hal berikut:
Siapa yang mengelola pemulihan: Anda atau Google Cloud.
Kapasitas yang Anda gunakan untuk pemulihan: hanya kapasitas yang dipesan, atau kapasitas di dalam atau di luar pemesanan Anda.
Tingkat kontrol penempatan Anda: apakah Anda dapat melihat dan memulai pemeliharaan sebelum waktu yang direncanakan untuk sub-blok pemesanan tertentu untuk kontrol terperinci.
Saat memesan kapasitas untuk membuat instance atau cluster komputasi, Anda harus memilih salah satu mode operasional reservasi berikut: mode terkelola atau mode semua kapasitas.
Mode terkelola
Dalam mode terkelola, Google Cloud secara otomatis mengelola proses pemeliharaan dan pemulihan instance komputasi Anda setelah terjadi error host atau laporan host yang salah. Pendekatan ini ideal saat workload Anda memerlukan stabilitas tinggi, dan Anda lebih memilih proses otomatis untuk meminimalkan periode nonaktif.
Mode terkelola memiliki fitur berikut:
Hanya gunakan kapasitas yang dipesan untuk pemulihan: Compute Engine hanya menggunakan kapasitas yang dipesan untuk memulai ulang instance. Jika tidak ada kapasitas yang tersedia dalam pemesanan Anda, Compute Engine hanya akan memulai ulang instance setelah Anda mendapatkan lebih banyak kapasitas.
Mulai ulang instance otomatis: Google Cloud menangani seluruh proses pemulihan untuk instance. Jika pemeliharaan host diperlukan, Compute Engine akan otomatis memigrasikan instance Anda ke mesin lain yang tersedia dalam reservasi Anda dan memulai ulang instance.
Pengelolaan dan visibilitas blok: Anda dapat melihat topologi, kondisi, dan status pemeliharaan setiap reservasi dan blok reservasi. Anda juga dapat menerima notifikasi pemeliharaan, dan secara opsional memulai pemeliharaan sebelum waktu pemeliharaan terjadwal, untuk resource ini.
Potensi batas kapasitas API: panggilan ke API host yang salah dalam laporan mungkin dibatasi kapasitasnya per reservasi.
Mode semua kapasitas
Dalam semua mode kapasitas, Anda bertanggung jawab untuk mengelola proses pemulihan instance komputasi. Anda harus memulai pemeliharaan secara manual setelah terjadi error host atau laporan host yang rusak. Tidak seperti mode terkelola, Anda juga dapat melihat dan memulai pemeliharaan untuk sub-blok reservasi Anda. Fitur ini memberi Anda kontrol penuh dan terperinci atas proses pemeliharaan dan pemulihan untuk instance Anda.
Mode semua kapasitas memiliki fitur berikut:
Menggunakan kapasitas yang dipesan dan tidak dipesan untuk pemulihan: Anda dapat menggunakan resource yang dipesan, serta resource apa pun yang tersedia di luar pemesanan, untuk membantu Anda memigrasikan dan memulai ulang instance saat hostnya gagal.
Mulai ulang instance secara manual: Anda bertanggung jawab atas proses pemulihan instance. Saat pemeliharaan host diperlukan karena error host atau laporan host yang salah, Compute Engine akan menghentikan instance Anda. Anda hanya dapat memulai ulang instance setelah pemeliharaan selesai.
Pengelolaan dan visibilitas blok dan sub-blok: Anda dapat melihat topologi, kondisi, dan status pemeliharaan setiap reservasi, blok reservasi, dan sub-blok reservasi. Anda juga dapat menerima notifikasi pemeliharaan, dan secara opsional memulai pemeliharaan sebelum waktu pemeliharaan terjadwal, untuk resource ini.
Tidak ada batas laju API: tidak ada batas laju saat Anda melakukan panggilan ke API laporkan host yang bermasalah.
Jenis penjadwalan pemeliharaan
Jika Anda menggunakan model penyediaan terikat reservasi, maka Cluster Director menyediakan opsi untuk menjadwalkan pemeliharaan host untuk instance komputasi yang berjalan di cluster Anda. Saat memesan kapasitas, Anda dapat menentukan apakah akan mengelompokkan instance dan menyinkronkan penjadwalan pemeliharaan (dikelompokkan), atau instance dapat digabungkan secara longgar dan memiliki penjadwalan pemeliharaan independen (independen).
Penjadwalan pemeliharaan yang dikelompokkan
Jenis penjadwalan pemeliharaan yang dikelompokkan membantu memastikan bahwa, kapan pun Compute Engine menyediakan instance komputasi, semua instance yang menjalankan workload yang sama memiliki frekuensi pemeliharaan terencana yang sama. Pemeliharaan yang terintegrasi erat ini memungkinkan Anda mengoptimalkan performa tugas dengan memberi Anda kontrol penuh atas kapasitas yang digunakan dan tidak digunakan.
Jenis penjadwalan pemeliharaan grup berguna dalam kasus berikut:
Lingkungan Anda menggunakan penjadwal tugas, seperti Slurm atau GKE.
Anda ingin menjalankan pelatihan atau workload komputasi paralel lainnya.
Penjadwalan pemeliharaan independen
Jenis penjadwalan pemeliharaan independen ini memberikan jadwal pemeliharaan yang berbeda untuk setiap instance. Konfigurasi ini ideal jika Anda ingin menjalankan inferensi atau pelatihan skala terbatas yang workload-nya berjalan lebih efisien jika memiliki jadwal pemeliharaan terpisah.