Pengelolaan cluster HPC yang ditingkatkan dengan instance H4D

Kemampuan pengelolaan cluster HPC yang ditingkatkan memungkinkan Anda menjalankan cluster HPC skala besar yang di-deploy secara padat dan memberikan kemampuan pengelolaan cluster berikut:

Kolokasi resource infrastruktur HPC

Saat menggunakan instance H4D dengan kemampuan pengelolaan yang ditingkatkan, Anda dapat meminta Compute Engine untuk menyediakan instance Anda sedekat mungkin. Mesin ini menawarkan fitur berikut:

  • Compute Engine menyediakan mesin sebagai blok resource.

  • Peningkatan skalabilitas workload melalui jaringan 200 Gbps yang mendukung Cloud RDMA.

Pengaturan resource ini meminimalkan hop jaringan dan mengoptimalkan latensi jaringan terendah. Untuk mempelajari lebih lanjut cara mendapatkan kapasitas untuk men-deploy blok mesin yang dialokasikan secara padat, lihat Membuat cluster HPC dengan kemampuan pengelolaan yang ditingkatkan.

Penempatan yang kompatibel dengan topologi cluster

Setelah membuat VM atau cluster VM H4D, Anda bisa mendapatkan informasi topologi di tingkat node dan cluster. Informasi ini membantu Anda melakukan hal berikut:

  • Sesuaikan desain aplikasi atau workload Anda untuk lebih meminimalkan latensi jaringan.

  • Pahami dan pecahkan masalah latensi dan performa jaringan untuk VM yang sering berkomunikasi satu sama lain. Masalah ini dapat terjadi jika VM ditempatkan berjauhan secara tidak terduga.

Untuk mengetahui informasi selengkapnya, lihat Melihat topologi VM.

Mengelola pemeliharaan dan pemulihan VM H4D Anda

Saat Anda mencadangkan kapasitas untuk membuat VM atau cluster H4D, Google Cloud akan otomatis mengelola proses pemeliharaan dan pemulihan VM Anda setelah error host atau laporan host yang rusak. Pendekatan ini, yang disebut sebagai mode terkelola, sangat ideal jika workload Anda memerlukan stabilitas tinggi, dan memerlukan proses otomatis untuk meminimalkan periode nonaktif.

Mode terkelola memiliki fitur berikut:

  • Hanya gunakan kapasitas yang dipesan untuk pemulihan: Compute Engine hanya menggunakan kapasitas yang dipesan untuk memulai ulang VM. Jika tidak ada kapasitas yang tersedia di pemesanan Anda, Compute Engine hanya akan memulai ulang VM setelah Anda mendapatkan lebih banyak kapasitas.

  • Mulai ulang VM otomatis: Google Cloud menangani seluruh proses pemulihan untuk VM. Saat pemeliharaan host diperlukan, Compute Engine akan otomatis memigrasikan VM Anda ke mesin lain yang tersedia dalam reservasi Anda dan memulai ulang VM.

  • Pengelolaan dan visibilitas blok: Anda dapat melihat topologi, kondisi, dan status pemeliharaan setiap reservasi dan blok reservasi. Anda juga dapat menerima notifikasi pemeliharaan, dan secara opsional memulai pemeliharaan sebelum waktu pemeliharaan terjadwal, untuk resource ini.

  • Potensi batas kapasitas API: panggilan ke API host yang salah dalam laporan mungkin dibatasi kapasitasnya per reservasi.

Penjadwalan dan kontrol pemeliharaan cluster

Anda mengontrol pemeliharaan instance H4D dengan menggunakan penjadwalan yang kompatibel dengan topologi dalam blok resource. Kemampuan ini membantu menyinkronkan upgrade sehingga beban kerja Anda lebih tangguh terhadap peristiwa host dan meminimalkan gangguan.

Untuk memfasilitasi kontrol penuh atas peristiwa pemeliharaan, Anda dapat menggunakan fitur berikut:

Jenis penjadwalan pemeliharaan

Saat mencadangkan kapasitas untuk membuat VM atau cluster instance VM H4D, Anda dapat menentukan cara Compute Engine mempertahankan infrastruktur tempat VM Anda berjalan. Anda dapat menentukan apakah akan mengelompokkan VM dan memiliki penjadwalan pemeliharaan yang disinkronkan (dikelompokkan), atau VM dapat digabungkan secara longgar dan memiliki penjadwalan pemeliharaan yang independen (independen).

Penjadwalan pemeliharaan yang dikelompokkan

Jenis penjadwalan pemeliharaan yang dikelompokkan membantu memastikan bahwa, kapan pun Compute Engine menyediakan VM, semua VM yang menjalankan workload yang sama memiliki frekuensi pemeliharaan terencana yang sama. Pemeliharaan yang terintegrasi erat ini memungkinkan Anda mengoptimalkan performa tugas dengan memberi Anda kontrol penuh atas kapasitas yang digunakan dan tidak digunakan.

Jenis penjadwalan pemeliharaan grup berguna dalam kasus berikut:

  • Lingkungan Anda menggunakan penjadwal tugas, seperti Slurm atau Google Kubernetes Engine.
  • Anda ingin menjalankan workload komputasi yang sangat paralel.

Penjadwalan pemeliharaan independen

Jenis penjadwalan pemeliharaan independen memberikan jadwal pemeliharaan yang berbeda untuk VM. Konfigurasi ini ideal jika Anda memiliki workload yang berjalan lebih efisien saat VM memiliki jadwal pemeliharaan terpisah.

Mengelola acara penyelenggara

Setelah membuat VM H4D dan memulai workload, Anda dapat menyiapkan pemberitahuan dan menerima notifikasi saat pemeliharaan untuk VM atau blok yang dicadangkan dijadwalkan, dimulai, atau selesai. Anda juga dapat melihat dan, jika perlu, memulai pemeliharaan secara manual pada VM atau blok yang dicadangkan sebelum waktu yang dijadwalkan. Opsi ini membantu Anda mengontrol dan meminimalkan periode nonaktif pada workload secara proaktif.

Untuk informasi selengkapnya, lihat referensi berikut:

Alat diagnostik dan pemantauan cluster

Untuk pemantauan dan pemecahan masalah, instance H4D menyertakan layanan Pelaporan host yang rusak, yang dapat Anda gunakan untuk menandai masalah pada setiap mesin host.

Apa langkah selanjutnya?