Google Kubernetes Engine (GKE) menyediakan platform berperforma tinggi dan skalabel untuk workload komputasi berperforma tinggi (HPC). Untuk mencapai performa tinggi dan efisiensi operasional, Anda dapat menggunakan infrastruktur yang dioptimalkan untuk workload, seperti kelompok VM khusus HPC, yang disediakan GKE. Dokumen ini menguraikan praktik terbaik untuk mengelola infrastruktur dan workload Anda guna mengoptimalkan jalannya aplikasi HPC di GKE.
Konfigurasi infrastruktur dan node
Bagian ini menjelaskan praktik terbaik untuk mengonfigurasi infrastruktur dasar dan node GKE untuk workload HPC.
Memilih VM H4D untuk workload intensif komputasi
Pilih hardware yang sesuai untuk aplikasi Anda. VM H4D dirancang untuk memaksimalkan throughput aplikasi HPC yang memerlukan komputasi intensif. VM H4D menawarkan performa tinggi, biaya rendah, dan skalabilitas untuk workload multi-node. H4D adalah bagian dari kelompok mesin yang dioptimalkan untuk komputasi, yang menawarkan instance yang dioptimalkan untuk komputasi yang ideal untuk HPC dan beban kerja yang sarat komputasi.
Untuk mengetahui informasi selengkapnya tentang seri mesin H4D, lihat Kelompok mesin yang dioptimalkan untuk komputasi: Seri mesin H4D.
Untuk mengetahui petunjuk tentang cara membuat cluster GKE yang dioptimalkan untuk HPC, lihat Menjalankan workload komputasi berperforma tinggi dengan H4D.
Memperhitungkan resource node yang dapat dialokasikan
Pahami perbedaan antara kapasitas total resource node dan resource yang dapat dialokasikan ke workload Anda. Node GKE menjalankan komponen sistem, seperti kubelet dan runtime container, yang memerlukan resource agar dapat berfungsi. GKE mencadangkan jumlah resource yang telah ditetapkan untuk
fungsionalitas sistem dan keandalan node. Memahami jumlah alokasi resource aktual yang Anda miliki untuk workload Anda (ukuran VM dikurangi kapasitas yang dicadangkan GKE) dapat membantu Anda menyesuaikan ukuran permintaan resource untuk workload HPC Anda dengan benar.
Untuk informasi selengkapnya, lihat referensi berikut:
- Dokumentasi GKE tentang merencanakan ukuran node: Memeriksa resource yang dapat dialokasikan pada node.
- Dokumentasi Kubernetes tentang mencadangkan Resource Komputasi untuk Daemon Sistem.
Mencadangkan core untuk mengurangi penghentian sementara
Jika beban kerja menggunakan semua core fisik yang tersedia di node, beban kerja tersebut dapat bersaing dengan daemon sistem yang sensitif terhadap latensi. Persaingan ini dapat menyebabkan penghentian sementara yang sering terjadi saat penjadwal OS mengganggu workload HPC untuk melakukan tugas sistem, yang dapat menurunkan performa.
Untuk mempertahankan performa, hindari mengalokasikan semua CPU yang tersedia ke workload Anda. Proses sistem penting memerlukan sedikit overhead CPU agar berfungsi dengan baik. Mengalokasikan 100% kapasitas komputasi ke beban kerja Anda akan menimbulkan perebutan resource dengan komponen sistem ini, yang dapat menurunkan performa. Misalnya, untuk jenis mesin H4D, guna mempertahankan performa, konfigurasi workload Anda agar menggunakan kurang dari 192 CPU.
Konfigurasi cluster dan workload
Bagian ini menjelaskan praktik terbaik untuk mengonfigurasi cluster GKE dan men-deploy workload HPC.
Menggunakan Cluster Toolkit untuk pembuatan cluster
Gunakan Cluster Toolkit untuk menyederhanakan deployment dan pengelolaan workload HPC di GKE. Toolkit ini menyediakan cetak biru desain referensi yang menggabungkan praktik terbaik untuk mengonfigurasi resource komputasi, penyimpanan, dan jaringan dalam lingkungan berperforma tinggi.
Untuk mengetahui petunjuk tentang cara menggunakan Cluster Toolkit untuk membuat cluster H4D, lihat Menjalankan workload komputasi berperforma tinggi dengan H4D.
Menggunakan flex-start untuk pengelolaan kapasitas
Untuk workload HPC yang fluktuatif (dinamis) atau tidak sensitif terhadap waktu, gunakan flex-start untuk meningkatkan pengelolaan kapasitas saat kapasitas yang dipesan atau on-demand H4D tidak tersedia. Flex-start mengelola siklus proses node H4D dan membantu memenuhi kebutuhan resource yang mendadak atau mendesak.
Untuk mengetahui informasi selengkapnya, lihat Membuat cluster H4D dengan flex-start.
Menggunakan kebijakan penempatan rapat untuk workload yang terkait erat
Terapkan kebijakan penempatan yang ringkas untuk workload HPC yang terkait erat dan sensitif terhadap latensi. Kebijakan ini memastikan bahwa semua Pod disediakan berdekatan satu sama lain di komputer host. Konfigurasi ini meminimalkan latensi jaringan antar-node, yang sangat penting untuk aplikasi yang mengandalkan komunikasi antar-node.
Jika Anda membuat cluster H4D menggunakan gcloud CLI, seperti yang dijelaskan dalam Menjalankan beban kerja komputasi berperforma tinggi dengan H4D, GKE akan otomatis mengonfigurasi kebijakan penempatan ringkas. Jika Anda menggunakan Cluster Toolkit, kebijakan ini juga dikonfigurasi secara otomatis. Jika Anda ingin mengonfigurasi penempatan rapat secara manual untuk jenis node lainnya, lihat Menentukan penempatan rapat untuk node GKE.
Menetapkan permintaan resource yang sesuai
Periksa CPU yang sebenarnya dapat dialokasikan di node Anda sebelum menentukan ukuran tugas HPC.
Gunakan perintah kubectl get node untuk melihat resource yang dapat dialokasikan. Pastikan persyaratan CPU tugas Anda tidak melebihi yang tersedia di GKE setelah reservasi sistem GKE.
GKE memiliki beberapa fitur untuk membantu menganalisis dan menyesuaikan permintaan resource Anda secara otomatis. Untuk mengetahui informasi selengkapnya, mulai dengan Mengidentifikasi workload yang kurang dan kelebihan alokasi.
Mendedikasikan seluruh node untuk workload tunggal
Konfigurasi tugas MPI Anda untuk menempati seluruh node H4D. Instance H4D disediakan sebagai VM host penuh. Strategi ini mencadangkan sebagian besar kapasitas node, sehingga memastikan workload Anda terisolasi. Gunakan permintaan resource container atau anti-afinitas Pod untuk membantu memastikan bahwa replika tidak ditempatkan di node fisik yang sama.
Mengaktifkan Cloud RDMA untuk jaringan berkecepatan tinggi dengan VM H4D
Jika Anda menggunakan VM H4D, konfigurasi manifes deployment Anda untuk mengaktifkan Cloud RDMA untuk Pod Anda. Konfigurasi ini membantu memastikan bahwa antarmuka jaringan RDMA berkecepatan tinggi diekspos dengan benar ke workload yang dikontainerkan. Untuk mengetahui petunjuknya, lihat Mengonfigurasi manifes untuk RDMA.
Ringkasan praktik terbaik
Tabel berikut meringkas praktik terbaik yang direkomendasikan dalam dokumen ini:
| Topik | Tugas |
|---|---|
| Konfigurasi infrastruktur dan node | Memilih VM H4D untuk workload intensif komputasi |
| Konfigurasi infrastruktur dan node | Memperhitungkan resource node yang dapat dialokasikan |
| Konfigurasi infrastruktur dan node | Mencadangkan core untuk mengurangi penghentian sementara |
| Konfigurasi cluster dan workload | Menggunakan Cluster Toolkit untuk pembuatan cluster |
| Konfigurasi cluster dan workload | Menggunakan flex-start untuk pengelolaan kapasitas |
| Konfigurasi cluster dan workload | Menggunakan kebijakan penempatan rapat untuk workload yang terkait erat |
| Konfigurasi cluster dan workload | Menetapkan permintaan resource yang sesuai |
| Konfigurasi cluster dan workload | Mendedikasikan seluruh node untuk workload tunggal |
| Konfigurasi cluster dan workload | Mengaktifkan Cloud RDMA untuk jaringan berkecepatan tinggi dengan VM H4D |
Langkah berikutnya
- Jalankan workload komputasi berperforma tinggi (HPC) dengan H4D.
- Pelajari cara merencanakan ukuran node GKE