Ringkasan cluster HPC dengan kemampuan pengelolaan cluster yang ditingkatkan

Untuk membuat infrastruktur bagi aplikasi yang terhubung erat dan dapat diskalakan di beberapa node, Anda dapat membuat cluster instance virtual machine (VM). Panduan ini memberikan ringkasan tingkat tinggi tentang pertimbangan dan langkah-langkah utama untuk mengonfigurasi cluster instance virtual machine (VM) untuk workload komputasi berperforma tinggi (HPC) menggunakan alokasi resource padat.

Dengan H4D, Compute Engine menambahkan dukungan untuk menjalankan workload HPC yang sangat besar dengan memperlakukan seluruh cluster instance VM sebagai satu komputer. Dengan menggunakan penempatan VM yang kompatibel dengan topologi, Anda dapat mengakses banyak instance dalam satu blok super jaringan dan meminimalkan latensi jaringan. Anda juga dapat mengonfigurasi Cloud RDMA di instance ini untuk memaksimalkan performa komunikasi antar-node, yang sangat penting untuk workload HPC yang terkait erat.

Anda membuat cluster VM HPC ini dengan H4D dengan mencadangkan blok kapasitas, bukan resource individual. Menggunakan blok kapasitas untuk cluster Anda memungkinkan kemampuan pengelolaan cluster yang ditingkatkan.

Cluster HPC dengan instance H4D dapat dibuat dengan atau tanpa kemampuan pengelolaan cluster yang ditingkatkan. Jika Anda tidak memerlukan fitur kemampuan pengelolaan cluster yang ditingkatkan dengan cluster HPC H4D, atau jika Anda ingin membuat cluster HPC menggunakan seri mesin selain H4D, gunakan petunjuk berikut untuk membuat instance atau cluster HPC:

Terminologi cluster

Saat menggunakan blok kapasitas, istilah berikut digunakan:

Blokir

Kumpulan sub-blok yang saling terhubung dengan fabric non-blocking, yang menyediakan interkoneksi bandwidth tinggi antara semua host dalam cluster.

Cluster

Kumpulan blok yang saling terhubung oleh fabric jaringan berkecepatan tinggi. Cluster dapat diskalakan hingga ribuan CPU untuk menjalankan workload HPC skala besar. Setiap cluster unik secara global. Komunikasi di berbagai blok hanya menambahkan satu hop tambahan, sehingga mempertahankan performa dan prediktabilitas yang tinggi, bahkan pada skala yang sangat besar. Metadata tingkat cluster juga tersedia untuk orkestrator untuk penempatan tugas cerdas dalam skala besar.

Cluster Toolkit

Alat open source yang ditawarkan oleh Google yang menyederhanakan konfigurasi dan deployment untuk cluster yang menggunakan Slurm atau Google Kubernetes Engine. Anda menggunakan cetak biru yang telah ditentukan sebelumnya untuk membuat folder deployment yang didasarkan pada cetak biru. Anda dapat mengubah cetak biru atau folder deployment untuk menyesuaikan deployment dan stack software Anda. Kemudian, Anda menggunakan Terraform atau Packer untuk menjalankan perintah yang dihasilkan oleh Cluster Toolkit untuk men-deploy cluster.

Deployment padat

Permintaan resource yang mengalokasikan resource instance komputasi Anda secara fisik berdekatan satu sama lain untuk meminimalkan hop jaringan dan mengoptimalkan latensi terendah.

Fabric jaringan

Network fabric menyediakan konektivitas berlatensi rendah dan bandwidth tinggi di semua blok dan layanan dalam cluster. Google Cloud Jupiter adalah arsitektur jaringan pusat data Google yang menggunakan jaringan yang ditetapkan untuk software dan switch sirkuit optik untuk mengembangkan jaringan dan mengoptimalkan performanya.

Node atau host

Satu mesin server fisik di pusat data. Setiap host memiliki resource komputasi terkait seperti CPU, memori, dan antarmuka jaringan. Jumlah dan konfigurasi resource komputasi ini bergantung pada jenis mesin. Instance komputasi disediakan di atas host fisik.

Orchestrator

Orchestrator mengotomatiskan pengelolaan cluster Anda. Dengan orkestrator, Anda tidak perlu mengelola setiap instance VM di cluster. Pengorkestrasi, seperti Slurm atau Google Kubernetes Engine (GKE), menangani tugas seperti pengantrean tugas, alokasi resource, penskalaan otomatis (dengan GKE), dan tugas pengelolaan cluster sehari-hari lainnya.

Sub-blok

Sekelompok host dan hardware konektivitas terkait yang berada di rak fisik tunggal. Switch top-of-rack (ToR) menghubungkan host ini, sehingga memungkinkan komunikasi satu hop yang sangat efisien antara dua CPU dalam sub-blok. Cloud RDMA memfasilitasi komunikasi langsung ini.

Ringkasan proses pembuatan cluster dengan VM H4D

Untuk membuat cluster HPC pada blok kapasitas yang dipesan, Anda harus menyelesaikan langkah-langkah berikut:

Meninjau model penyediaan yang tersedia
Memilih opsi konsumsi dan mendapatkan kapasitas
Memilih opsi deployment dan pengorkestrasi
Pilih sistem operasi atau image cluster
Buat cluster Anda

Model penyediaan untuk pembuatan VM dan cluster

Saat membuat instance VM, Anda dapat menggunakan model penyediaan yang dijelaskan dalam Model penyediaan instance Compute Engine.

Untuk membuat instance H4D yang terhubung erat, Anda harus menggunakan salah satu model penyediaan berikut untuk mendapatkan resource yang diperlukan guna membuat instance komputasi:

Terikat dengan reservasi: Anda dapat memesan sumber daya dengan harga diskon untuk tanggal dan durasi mendatang. Di awal periode reservasi, Anda dapat menggunakan resource yang dipesan untuk membuat VM atau cluster. Anda memiliki akses eksklusif ke resource yang dipesan selama periode pemesanan.
Mulai fleksibel: Anda dapat meminta sumber daya yang didiskon hingga tujuh hari. Compute Engine melakukan upaya terbaik untuk menjadwalkan penyediaan resource yang Anda minta segera setelah resource tersebut tersedia. Anda memiliki akses eksklusif ke resource yang diperoleh selama periode yang diminta.
Spot: berdasarkan ketersediaan, Anda bisa langsung mendapatkan resource dengan diskon besar. Namun, Compute Engine dapat menghentikan atau menghapus instance VM kapan saja untuk memulihkan kapasitas.

Model penyediaan terkait reservasi

Model penyediaan terikat reservasi menautkan instance VM yang Anda buat ke kapasitas yang sebelumnya Anda pesan. Saat Anda memesan kapasitas, Compute Engine akan membuat pemesanan kosong. Kemudian, pada waktu mulai pemesanan, hal berikut akan terjadi:

Compute Engine menambahkan resource yang dipesan ke reservasi. Anda memiliki akses eksklusif ke kapasitas yang dipesan hingga waktu berakhirnya pemesanan.
Google Cloud menagih Anda untuk kapasitas yang dicadangkan hingga akhir periode reservasi, terlepas dari apakah Anda menggunakan kapasitas tersebut atau tidak.

Selanjutnya, Anda dapat menggunakan resource yang telah direservasi untuk membuat VM tanpa biaya tambahan. Anda hanya membayar resource yang tidak disertakan dalam reservasi, seperti disk atau alamat IP.

Anda dapat memesan resource untuk VM sebanyak yang Anda inginkan selama yang Anda inginkan untuk tanggal mendatang. Kemudian, Anda dapat menggunakan resource yang dicadangkan untuk membuat dan menjalankan VM hingga akhir periode reservasi. Jika Anda memesan resource selama satu tahun atau lebih, Anda harus membeli dan melampirkan komitmen berbasis resource.

Untuk menyediakan resource menggunakan model penyediaan terikat pemesanan, lihat:

Untuk workload terdistribusi berskala besar yang berjalan lama dengan resource yang dialokasikan secara padat: Pesan kapasitas melalui tim akun Anda
Untuk beban kerja terdistribusi yang berjalan singkat (hingga 90 hari) dengan alokasi resource yang padat: Permintaan pemesanan untuk masa mendatang dalam mode kalender

Anda dapat menggunakan penyediaan terikat reservasi dengan instance H4D dengan menentukan model penyediaan terikat reservasi saat membuat VM individual, cluster HPC, atau grup VM.

Model penyediaan mulai fleksibel

Untuk menjalankan workload berdurasi singkat yang memerlukan resource yang dialokasikan secara padat, Anda dapat meminta resource komputasi hingga tujuh hari dengan menggunakan Mulai Fleksibel. Setiap kali resource tersedia, Compute Engine akan membuat VM dalam jumlah yang Anda minta. Anda dapat menghentikan VM Flex-start mandiri, tetapi Anda tidak dapat menghentikan VM Flex-start yang dibuat oleh grup instance terkelola (MIG) melalui permintaan pengubahan ukuran. VM Flex-start ada hingga Anda menghapusnya, atau hingga Compute Engine menghapus VM di akhir durasi jalannya.

Mulai fleksibel ideal untuk beban kerja yang dapat dimulai kapan saja. Model penyediaan flex-start menyediakan resource dari kumpulan kapasitas yang aman, sehingga resource yang dialokasikan dialokasikan secara padat untuk meminimalkan latensi jaringan.

Saat Anda menambahkan VM mulai fleksibel ke grup instance terkelola (MIG) menggunakan permintaan pengubahan ukuran, MIG akan membuat semua VM sekaligus. Pendekatan ini membantu Anda menghindari biaya yang tidak perlu untuk kapasitas parsial yang mungkin diberikan Compute Engine saat Anda menunggu kapasitas penuh yang diperlukan untuk memulai workload.

Anda dapat menggunakan penyediaan mulai fleksibel dengan instance H4D, menggunakan model deployment yang tersedia.

Model penyediaan spot

Untuk menjalankan beban kerja fault-tolerant, Anda dapat segera mendapatkan resource komputasi berdasarkan ketersediaan. Anda mendapatkan resource dengan harga serendah mungkin. Namun, Compute Engine dapat menghentikan atau menghapus Spot VM yang dibuat kapan saja untuk memulihkan kapasitas. Proses ini disebut pengambilalihan.

Spot VM ideal untuk beban kerja yang dapat menoleransi gangguan, seperti:

Batch processing
Komputasi berperforma tinggi (HPC)
Analisis data
Continuous integration dan continuous deployment (CI/CD)
Encoding media

Anda dapat menggunakan VM Spot dengan jenis mesin apa pun, kecuali jenis mesin A4X, X4, dan bare metal. Alokasi padat bergantung pada ketersediaan resource. Untuk membantu memastikan alokasi yang lebih dekat, Anda dapat menerapkan kebijakan penempatan yang ringkas ke VM Spot.

Anda dapat menggunakan Spot VM dengan opsi deployment padat berikut:

Memilih opsi pemakaian dan mendapatkan kapasitas

Opsi penggunaan menentukan cara resource diperoleh untuk cluster Anda. Untuk membuat cluster yang menggunakan kemampuan pengelolaan cluster yang ditingkatkan, Anda harus meminta blok kapasitas untuk deployment padat.

Tabel berikut merangkum perbedaan utama antara opsi penggunaan untuk blok kapasitas:

Opsi pemakaian	Pemesanan untuk masa mendatang untuk blok kapasitas	Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender)	Flex-start	Spot
Karakteristik workload	Workload terdistribusi berskala besar yang berjalan lama dan memerlukan alokasi resource yang padat	Workload berdurasi singkat yang memerlukan alokasi resource yang padat	Workload berdurasi singkat yang memerlukan alokasi resource yang padat	Workload fault-tolerant
Masa aktif	Kapan saja	Hingga 90 hari	Hingga 7 hari	Kapan saja, tetapi tunduk pada pengambilalihan
Preemptible	Tidak	Tidak	Tidak	Ya
Jaminan kapasitas	Sangat tinggi	Sangat tinggi	Upaya terbaik	Upaya terbaik
Kuota	Pastikan Anda memiliki kuota yang cukup sebelum membuat instance.	Tidak ada kuota yang dikenai biaya	Kuota preemptible dikenai biaya.	Kuota preemptible dikenai biaya.
Harga	Lihat harga untuk VM. Jika Anda memesan resource selama satu tahun atau lebih, Anda harus membeli dan melampirkan komitmen berbasis resource ke resource yang Anda pesan. Anda akan ditagih untuk periode reservasi. Lihat penagihan reservasi.	Diskon (hingga 25%). Lihat harga Dynamic Workload Scheduler. Anda akan ditagih untuk periode reservasi. Lihat penagihan reservasi.	Diskon (hingga 25%). Lihat harga Dynamic Workload Scheduler. Anda membayar sesuai penggunaan (PAYG).	Diskon besar (60-91%). Lihat harga Spot VM dan harga untuk VM yang dioptimalkan komputasi. Anda membayar sesuai penggunaan (PAYG).
Alokasi resource	Padat	Padat	Padat	Standar (Kebijakan penempatan rapat opsional)
Model penyediaan	Terikat dengan reservasi	Terikat dengan reservasi	Flex-start	Spot
Metode pembuatan	Untuk membuat cluster dan VM HPC, Anda harus melakukan hal berikut: Pesan kapasitas melalui tim akun Anda Pada tanggal dan waktu yang Anda pilih, Anda dapat menggunakan kapasitas yang telah dipesan untuk membuat cluster HPC. Lihat Memilih opsi deployment.	Untuk membuat cluster dan VM HPC, Anda harus melakukan hal berikut: Membuat permintaan pemesanan untuk masa mendatang dalam mode kalender Pada tanggal dan waktu yang Anda pilih, Anda dapat menggunakan kapasitas yang telah dipesan untuk membuat cluster HPC. Lihat Memilih opsi deployment.	Untuk membuat VM, pilih salah satu opsi berikut: Buat VM Flex-start mandiri. Buat VM dengan mulai fleksibel secara bersamaan menggunakan permintaan pengubahan ukuran MIG. Gunakan GKE untuk menjalankan workload komputasi berperforma tinggi (HPC) dengan H4D. Saat kapasitas yang Anda minta tersedia, Compute Engine akan menyediakannya.	Anda dapat membuat VM dengan seketika. Lihat Memilih opsi deployment.

Memilih opsi deployment

Workload komputasi berperforma tinggi (HPC) menggabungkan resource komputasi untuk mendapatkan performa yang lebih besar daripada performa dari satu workstation, server, atau komputer. HPC digunakan untuk menyelesaikan masalah dalam riset akademis, sains, desain, simulasi, dan business intelligence.

Untuk cluster HPC dengan kemampuan pengelolaan cluster yang ditingkatkan, pilih seri mesin H4D. Jika Anda berencana menggunakan seri mesin yang berbeda, ikuti dokumentasi di Membuat instance VM yang siap HPC, bukan menggunakan metode deployment yang tercantum di halaman ini.

Beberapa opsi deployment yang tersedia mencakup penginstalan dan konfigurasi pengorkestrasi untuk meningkatkan pengelolaan cluster HPC.

Untuk opsi yang paling tepat dalam membuat VM atau cluster untuk kasus penggunaan Anda, pilih salah satu opsi berikut:

Opsi	Kasus penggunaan
Cluster Toolkit	Anda ingin menggunakan software open source yang menyederhanakan proses deployment cluster Slurm dan Google Kubernetes Engine (GKE). Cluster Toolkit dirancang agar sangat dapat disesuaikan dan diperluas. Untuk mempelajari lebih lanjut, lihat bagian berikut: Membuat cluster Slurm H4D dengan kemampuan pengelolaan cluster yang ditingkatkan Panduan memulai: Membuat cluster Slurm HPC yang mendukung Cloud RDMA
GKE	Anda menginginkan fleksibilitas maksimum dalam mengonfigurasi cluster Google Kubernetes Engine berdasarkan kebutuhan beban kerja Anda. Untuk mempelajari lebih lanjut, lihat Menjalankan workload HPC dengan H4D.
Menggunakan Compute Engine	Anda menginginkan kontrol penuh atas lapisan infrastruktur sehingga Anda dapat menyiapkan orkestrator Anda sendiri. Untuk mempelajari lebih lanjut, lihat bagian berikut: Membuat instance yang dioptimalkan untuk HPC (deployment non-padat) Membuat instance VM yang siap digunakan dengan HPC Membuat instance yang menggunakan Cloud RDMA Membuat instance H4D secara massal Membuat grup instance terkelola (MIG) dengan instance H4D Membuat MIG HPC dengan seri mesin H4D Panduan memulai: Membuat MIG dengan jenis mesin H4D dan flex-start Panduan memulai: Membuat MIG untuk workload HPC dengan penggunaan yang terikat reservasi

Opsi

Kasus penggunaan

Cluster Toolkit

Anda ingin menggunakan software open source yang menyederhanakan proses deployment cluster Slurm dan Google Kubernetes Engine (GKE). Cluster Toolkit dirancang agar sangat dapat disesuaikan dan diperluas. Untuk mempelajari lebih lanjut, lihat bagian berikut:

GKE

Anda menginginkan fleksibilitas maksimum dalam mengonfigurasi cluster Google Kubernetes Engine berdasarkan kebutuhan beban kerja Anda. Untuk mempelajari lebih lanjut, lihat Menjalankan workload HPC dengan H4D.

Menggunakan Compute Engine

Anda menginginkan kontrol penuh atas lapisan infrastruktur sehingga Anda dapat menyiapkan orkestrator Anda sendiri. Untuk mempelajari lebih lanjut, lihat bagian berikut:

Membuat instance yang dioptimalkan untuk HPC (deployment non-padat)
- Membuat instance VM yang siap digunakan dengan HPC
- Membuat instance yang menggunakan Cloud RDMA
Membuat instance H4D secara massal
Membuat grup instance terkelola (MIG) dengan instance H4D

Pilih image sistem operasi

Image sistem operasi (OS) yang Anda pilih bergantung pada layanan yang Anda gunakan untuk men-deploy cluster.

Untuk cluster di GKE: Gunakan image node GKE, seperti Container-Optimized OS. Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster GKE, image Container-Optimized OS akan digunakan secara default. Untuk mengetahui informasi selengkapnya tentang image node, lihat Image node di dokumentasi GKE.
Untuk cluster di Compute Engine: Anda dapat menggunakan salah satu image berikut:
- Image VM HPC: Image Rocky Linux 8 yang dioptimalkan untuk workload HPC yang terkait erat.
- Image OS yang disediakan oleh Google Cloud: Image OS yang mendukung H4D. Anda harus mengonfigurasi setelan ini untuk workload HPC Anda.
- Gambar kustom: Anda dapat membuat dan menggunakan gambar kustom Anda sendiri. Untuk menyertakan pengoptimalan khusus HPC, sebaiknya buat image kustom menggunakan image VM HPC.
Untuk Cluster Slurm: Cluster Toolkit men-deploy Cluster Slurm dengan image VM HPC berbasis Rocky Linux 8 yang dioptimalkan untuk workload HPC yang terkait erat.

Buat cluster HPC Anda

Setelah meninjau proses pembuatan cluster dan membuat keputusan awal untuk workload, buat cluster menggunakan salah satu opsi deployment.

Kemampuan pengelolaan cluster yang ditingkatkan untuk cluster HPC Anda

Saat membuat instance H4D dengan resource yang dialokasikan secara padat menggunakan metode deployment yang disebutkan dalam Memilih opsi deployment, Anda dapat menggunakan kemampuan pengelolaan cluster HPC yang ditingkatkan dengan instance Anda.

Untuk mengetahui informasi selengkapnya tentang kemampuan ini, lihat Pengelolaan cluster HPC yang ditingkatkan dengan instance H4D.

Langkah berikutnya

Pelajari Cluster Toolkit lebih lanjut.
Coba tutorial Mulai Cepat Men-deploy cluster HPC dengan Slurm.
Tinjau praktik terbaik untuk menjalankan workload HPC