Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Praktik terbaik untuk menjalankan workload HPC di GKE

Standar

Google Kubernetes Engine (GKE) menyediakan platform berperforma tinggi dan skalabel untuk workload komputasi berperforma tinggi (HPC). Untuk mencapai performa tinggi dan efisiensi operasional, Anda dapat menggunakan infrastruktur yang dioptimalkan untuk workload, seperti keluarga VM khusus HPC, yang disediakan GKE. Dokumen ini menguraikan praktik terbaik untuk mengelola infrastruktur dan workload Anda guna mengoptimalkan aplikasi HPC yang berjalan di GKE.

Untuk ringkasan gabungan semua praktik terbaik GKE, lihat Praktik terbaik untuk GKE.

Konfigurasi infrastruktur dan node

Bagian ini menjelaskan praktik terbaik untuk mengonfigurasi infrastruktur dasar dan node GKE untuk workload HPC.

Memilih VM H4D untuk workload intensif komputasi

Pilih hardware yang sesuai untuk aplikasi Anda. VM H4D dirancang untuk memaksimalkan throughput aplikasi HPC yang intensif komputasi. VM H4D menawarkan performa tinggi, biaya rendah, dan skalabilitas untuk workload multi-node. H4D adalah bagian dari keluarga mesin yang dioptimalkan untuk komputasi, yang menawarkan instance yang dioptimalkan untuk komputasi yang ideal untuk komputasi intensif dan HPC.

Untuk mengetahui informasi selengkapnya tentang seri mesin H4D, lihat Keluarga mesin yang dioptimalkan untuk komputasi: Seri mesin H4D.

Untuk mengetahui petunjuk tentang cara membuat cluster GKE yang dioptimalkan untuk HPC, lihat Menjalankan workload komputasi berperforma tinggi dengan H4D.

Memperhitungkan resource node yang dapat dialokasikan

Pahami perbedaan antara kapasitas resource total node dan resource yang dapat dialokasikan ke workload Anda. Node GKE menjalankan komponen sistem, seperti kubelet dan runtime container, yang memerlukan resource agar berfungsi. GKE mencadangkan resource dalam jumlah yang telah ditentukan untuk fungsi sistem dan keandalan node. Memahami jumlah alokasi resource aktual yang Anda miliki untuk workload Anda (ukuran VM dikurangi kapasitas yang dicadangkan GKE) dapat membantu Anda menentukan ukuran permintaan resource yang tepat untuk workload HPC Anda.

Untuk informasi selengkapnya, lihat referensi berikut:

Dokumentasi GKE tentang perencanaan ukuran node: Memeriksa resource yang dapat dialokasikan pada node.
Dokumentasi Kubernetes tentang mencadangkan Resource Komputasi untuk Daemon Sistem.

Mencadangkan core untuk mengurangi preemption

Jika workload menggunakan semua core fisik yang tersedia di node, workload tersebut dapat bersaing dengan daemon sistem yang sensitif terhadap latensi. Persaingan ini dapat menyebabkan preemption yang sering terjadi saat penjadwal OS mengganggu workload HPC untuk melakukan tugas sistem, yang dapat menurunkan performa.

Untuk mempertahankan performa, hindari mengalokasikan semua CPU yang tersedia ke workload Anda. Proses sistem penting memerlukan overhead CPU dalam jumlah kecil agar berfungsi dengan baik. Mengalokasikan 100% kapasitas komputasi ke workload Anda akan membuat persaingan resource dengan komponen sistem ini, yang dapat menurunkan performa. Misalnya, untuk jenis mesin H4D, agar performa tetap terjaga, konfigurasikan workload Anda untuk menggunakan kurang dari 192 CPU.

Konfigurasi cluster dan workload

Bagian ini menjelaskan praktik terbaik untuk mengonfigurasi cluster GKE dan men-deploy workload HPC Anda.

Menggunakan Cluster Toolkit untuk pembuatan cluster

Gunakan Cluster Toolkit untuk menyederhanakan deployment dan pengelolaan workload HPC di GKE. Toolkit ini menyediakan blueprint desain referensi yang menggabungkan praktik terbaik untuk mengonfigurasi resource komputasi, penyimpanan, dan jaringan di lingkungan berperforma tinggi.

Untuk mengetahui petunjuk tentang cara menggunakan Cluster Toolkit untuk membuat cluster H4D, lihat Menjalankan workload komputasi berperforma tinggi dengan H4D.

Menggunakan flex-start untuk pengelolaan kapasitas

Untuk workload HPC yang tidak sensitif terhadap waktu atau yang bersifat bursty (dinamis), gunakan flex-start untuk meningkatkan pengelolaan kapasitas saat kapasitas sesuai permintaan atau kapasitas yang dicadangkan H4D tidak tersedia. Flex-start mengelola siklus proses node H4D dan membantu mengatasi kebutuhan resource yang bersifat bursty atau sensitif terhadap waktu.

Untuk mengetahui informasi selengkapnya, lihat Membuat cluster H4D dengan flex-start.

Menggunakan kebijakan penempatan rapat untuk workload yang terkait erat

Terapkan kebijakan penempatan rapat untuk workload HPC yang sensitif terhadap latensi dan terkait erat. Kebijakan ini membantu memastikan bahwa semua Pod disediakan berdekatan satu sama lain di mesin host. Konfigurasi ini meminimalkan latensi jaringan antar-node, yang sangat penting untuk aplikasi yang mengandalkan komunikasi antar-node.

Jika Anda membuat cluster H4D menggunakan gcloud CLI, seperti yang dijelaskan dalam Menjalankan workload komputasi berperforma tinggi dengan H4D, GKE akan otomatis mengonfigurasi kebijakan penempatan rapat. Jika Anda menggunakan Cluster Toolkit, kebijakan ini juga akan otomatis dikonfigurasi. Jika Anda ingin mengonfigurasi penempatan rapat secara manual untuk jenis node lainnya, lihat Menentukan penempatan rapat untuk node GKE.

Menetapkan permintaan resource yang sesuai

Periksa CPU aktual yang dapat dialokasikan di node Anda sebelum menentukan ukuran tugas HPC Anda. Gunakan perintah kubectl get node untuk melihat resource yang dapat dialokasikan. Pastikan persyaratan CPU tugas Anda tidak melebihi jumlah yang tersedia di GKE setelah pencadangan sistem GKE.

GKE memiliki beberapa fitur untuk membantu menganalisis dan menyesuaikan permintaan resource Anda secara otomatis. Untuk mengetahui informasi selengkapnya, mulai dengan Mengidentifikasi workload yang kurang dan kelebihan alokasi.

Mendedikasikan seluruh node ke satu workload

Konfigurasikan tugas MPI Anda untuk menempati seluruh node H4D. Instance H4D disediakan sebagai VM host penuh. Strategi ini mencadangkan sebagian besar kapasitas node, sehingga memastikan workload Anda diisolasi. Gunakan permintaan resource container atau anti-afinitas Pod untuk membantu memastikan replika tidak ditempatkan di node fisik yang sama.

Mengaktifkan Cloud RDMA untuk jaringan berkecepatan tinggi dengan VM H4D

Jika Anda menggunakan VM H4D, konfigurasikan manifes deployment Anda untuk mengaktifkan Cloud RDMA untuk Pod Anda. Konfigurasi ini membantu memastikan bahwa antarmuka jaringan RDMA berkecepatan tinggi diekspos dengan benar ke workload yang di-container. Untuk mengetahui petunjuknya, lihat Mengonfigurasi manifes untuk RDMA.

Ringkasan praktik terbaik

Tabel berikut merangkum praktik terbaik yang direkomendasikan dalam dokumen ini:

Topik	Tugas
Konfigurasi infrastruktur dan node	Memilih VM H4D untuk workload intensif komputasi
Konfigurasi infrastruktur dan node	Memperhitungkan resource node yang dapat dialokasikan
Konfigurasi infrastruktur dan node	Mencadangkan core untuk mengurangi preemption
Konfigurasi cluster dan workload	Menggunakan Cluster Toolkit untuk pembuatan cluster
Konfigurasi cluster dan workload	Menggunakan flex-start untuk pengelolaan kapasitas
Konfigurasi cluster dan workload	Menggunakan kebijakan penempatan rapat untuk workload yang terkait erat
Konfigurasi cluster dan workload	Menetapkan permintaan resource yang sesuai
Konfigurasi cluster dan workload	Mendedikasikan seluruh node ke satu workload
Konfigurasi cluster dan workload	Mengaktifkan Cloud RDMA untuk jaringan berkecepatan tinggi dengan VM H4D

Praktik terbaik untuk menjalankan workload HPC di GKE Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.