Ringkasan cluster HPC dengan kemampuan pengelolaan cluster yang ditingkatkan

Untuk membuat infrastruktur bagi aplikasi yang terhubung erat dan dapat diskalakan di beberapa node, Anda dapat membuat cluster instance virtual machine (VM). Panduan ini memberikan ringkasan tingkat tinggi tentang pertimbangan dan langkah-langkah utama untuk mengonfigurasi cluster instance virtual machine (VM) untuk workload komputasi berperforma tinggi (HPC) menggunakan alokasi resource padat.

Dengan H4D, Compute Engine menambahkan dukungan untuk menjalankan workload HPC yang sangat besar dengan memperlakukan seluruh cluster instance VM sebagai satu komputer. Dengan menggunakan penempatan VM yang mendukung topologi, Anda dapat mengakses banyak instance dalam satu superblock jaringan dan meminimalkan latensi jaringan. Anda juga dapat mengonfigurasi Cloud RDMA di instance ini untuk memaksimalkan performa komunikasi antar-node, yang sangat penting untuk workload HPC yang terkait erat.

Anda membuat cluster VM HPC ini dengan H4D dengan mencadangkan blok kapasitas, bukan resource individual. Menggunakan blok kapasitas untuk cluster Anda memungkinkan kemampuan pengelolaan cluster yang ditingkatkan.

Cluster HPC dengan instance H4D dapat dibuat dengan atau tanpa kemampuan pengelolaan cluster yang ditingkatkan. Jika Anda tidak memerlukan fitur kemampuan pengelolaan cluster yang ditingkatkan dengan cluster HPC H4D, atau jika Anda ingin membuat cluster HPC menggunakan seri mesin selain H4D, gunakan petunjuk berikut untuk membuat instance atau cluster HPC:

Terminologi cluster

Saat menggunakan blok kapasitas, istilah berikut digunakan:

Blokir
Beberapa sub-blok saling terhubung dengan fabric non-blocking, sehingga menyediakan interkoneksi bandwidth tinggi. CPU apa pun dalam blok dapat dijangkau dalam maksimum dua hop jaringan. Sistem ini mengekspos metadata blok dan sub-blok ke orkestrator untuk memungkinkan penempatan tugas yang optimal.
Cluster
Beberapa blok saling terhubung untuk membentuk cluster yang dapat diskalakan hingga ribuan CPU untuk menjalankan workload HPC berskala besar. Setiap cluster bersifat unik secara global. Komunikasi di seluruh blok yang berbeda hanya menambahkan satu hop tambahan, sehingga mempertahankan performa dan prediktabilitas yang tinggi, bahkan pada skala yang sangat besar. Metadata tingkat cluster juga tersedia untuk orkestrator untuk penempatan tugas cerdas dalam skala besar.
Cluster Toolkit
Alat open source yang ditawarkan oleh Google yang menyederhanakan konfigurasi dan deployment untuk cluster yang menggunakan Slurm atau Google Kubernetes Engine. Anda menggunakan cetak biru yang telah ditentukan sebelumnya untuk membuat folder deployment yang didasarkan pada cetak biru. Anda dapat mengubah cetak biru atau folder deployment untuk menyesuaikan deployment dan stack software Anda. Kemudian, Anda menggunakan Terraform atau Packer untuk menjalankan perintah yang dihasilkan oleh Cluster Toolkit untuk men-deploy cluster.
Deployment padat
Permintaan resource yang mengalokasikan resource instance komputasi Anda secara fisik berdekatan satu sama lain untuk meminimalkan hop jaringan dan mengoptimalkan latensi terendah.
Fabric jaringan
Network fabric menyediakan konektivitas berlatensi rendah dan bandwidth tinggi di semua blok dan layanan dalam cluster. Google Cloud Jupiter adalah arsitektur jaringan pusat data Google yang memanfaatkan jaringan yang ditentukan software dan switch sirkuit optik untuk mengembangkan jaringan dan mengoptimalkan performanya.
Node atau host
Satu mesin server fisik di pusat data. Setiap host memiliki resource komputasi terkait, yaitu CPU, memori, dan antarmuka jaringan. Jumlah dan konfigurasi resource komputasi ini bergantung pada kelompok mesin. Instance VM disediakan di atas host fisik.
Orchestrator
Pengelola mengotomatiskan pengelolaan cluster Anda. Dengan orkestrator, Anda tidak perlu mengelola setiap instance VM di cluster. Pengorkestrasi, seperti Slurm atau Google Kubernetes Engine (GKE), menangani tugas seperti pengantrean tugas, alokasi resource, penskalaan otomatis (dengan GKE), dan tugas pengelolaan cluster sehari-hari lainnya.
Sub-blok
Ini adalah unit dasar tempat sekelompok host secara fisik berada di satu rak. Switch Top-of-Rack (ToR) menghubungkan host ini, sehingga memungkinkan komunikasi satu hop yang sangat efisien antara dua CPU dalam sub-blok. Cloud RDMA memfasilitasi komunikasi langsung ini.

Ringkasan proses pembuatan cluster dengan VM H4D

Untuk membuat cluster HPC pada blok kapasitas yang dipesan, Anda harus menyelesaikan langkah-langkah berikut:

  1. Meninjau model penyediaan yang tersedia
  2. Memilih opsi konsumsi dan mendapatkan kapasitas
  3. Memilih opsi deployment dan pengorkestrasi
  4. Pilih sistem operasi atau image cluster
  5. Buat cluster Anda

Model penyediaan untuk pembuatan VM dan cluster

Saat membuat instance VM, Anda dapat menggunakan model penyediaan yang dijelaskan dalam Model penyediaan instance Compute Engine.

Untuk membuat instance H4D yang terhubung erat, Anda harus menggunakan salah satu model penyediaan berikut untuk mendapatkan resource yang diperlukan guna membuat instance komputasi:

  • Terikat dengan reservasi: Anda dapat memesan sumber daya dengan harga diskon untuk tanggal dan durasi mendatang. Di awal periode reservasi, Anda dapat menggunakan resource yang dicadangkan untuk membuat VM atau cluster. Anda memiliki akses eksklusif ke resource yang dicadangkan selama periode reservasi.

  • Mulai fleksibel: Anda dapat meminta sumber daya yang didiskon hingga tujuh hari. Compute Engine melakukan upaya terbaik untuk menjadwalkan penyediaan resource yang Anda minta segera setelah resource tersebut tersedia. Anda memiliki akses eksklusif ke resource yang Anda peroleh untuk periode yang Anda minta.

  • Spot: berdasarkan ketersediaan, Anda dapat segera memperoleh resource dengan diskon besar. Namun, Compute Engine dapat menghentikan atau menghapus instance VM kapan saja untuk memulihkan kapasitas.

Model penyediaan terkait reservasi

Model penyediaan yang terikat reservasi menautkan instance VM yang Anda buat ke kapasitas yang sebelumnya Anda pesan. Saat Anda memesan kapasitas, Compute Engine akan membuat pemesanan kosong. Kemudian, pada waktu mulai pemesanan, hal berikut akan terjadi:

  • Compute Engine menambahkan resource yang dipesan ke reservasi. Anda memiliki akses eksklusif ke kapasitas yang dicadangkan hingga waktu berakhirnya pemesanan.

  • Google Cloud menagih Anda untuk kapasitas yang dicadangkan hingga akhir periode reservasi, terlepas dari apakah Anda menggunakan kapasitas tersebut atau tidak.

Selanjutnya, Anda dapat menggunakan resource yang telah direservasi untuk membuat VM tanpa biaya tambahan. Anda hanya membayar resource yang tidak termasuk dalam reservasi, seperti disk atau alamat IP.

Anda dapat memesan resource untuk VM sebanyak yang Anda inginkan selama yang Anda inginkan untuk tanggal mendatang. Kemudian, Anda dapat menggunakan resource yang dicadangkan untuk membuat dan menjalankan VM hingga akhir periode reservasi. Jika mencadangkan sumber daya selama satu tahun atau lebih, Anda harus membeli dan melampirkan komitmen berbasis sumber daya.

Untuk menyediakan resource menggunakan model penyediaan terikat pemesanan, lihat:

Anda dapat menggunakan penyediaan terikat reservasi dengan instance H4D dengan menentukan model penyediaan terikat reservasi saat membuat VM individual, cluster HPC, atau grup VM.

Model penyediaan mulai fleksibel

Untuk menjalankan workload berdurasi singkat yang memerlukan resource yang dialokasikan secara padat, Anda dapat meminta resource komputasi hingga tujuh hari menggunakan Mulai Fleksibel. Setiap kali resource tersedia, Compute Engine akan membuat VM dalam jumlah yang Anda minta. Anda dapat menghentikan VM Flex-start mandiri, tetapi Anda tidak dapat menghentikan VM Flex-start yang dibuat oleh grup instance terkelola (MIG) melalui permintaan pengubahan ukuran. VM Flex-start akan ada hingga Anda menghapusnya, atau hingga Compute Engine menghapus VM di akhir durasi jalannya.

Mulai fleksibel ideal untuk beban kerja yang dapat dimulai kapan saja. Model penyediaan flex-start menyediakan resource dari kumpulan kapasitas yang aman, sehingga resource yang dialokasikan dialokasikan secara padat untuk meminimalkan latensi jaringan.

Saat Anda menambahkan VM mulai fleksibel ke grup instance terkelola (MIG) menggunakan permintaan pengubahan ukuran, MIG akan membuat semua VM sekaligus. Pendekatan ini membantu Anda menghindari biaya yang tidak perlu untuk kapasitas parsial yang mungkin diberikan Compute Engine saat Anda menunggu kapasitas penuh yang diperlukan untuk memulai workload.

Anda dapat menggunakan penyediaan mulai fleksibel dengan instance H4D, menggunakan model deployment yang tersedia.

Model penyediaan spot

Untuk menjalankan beban kerja fault-tolerant, Anda dapat segera mendapatkan resource komputasi berdasarkan ketersediaan. Anda mendapatkan resource dengan harga serendah mungkin. Namun, Compute Engine dapat menghentikan atau menghapus Spot VM yang dibuat kapan saja untuk memulihkan kapasitas. Proses ini disebut pengambilalihan.

Spot VM ideal untuk beban kerja yang dapat menerima gangguan, seperti:

  • Batch processing
  • Komputasi berperforma tinggi (HPC)
  • Analisis data
  • Continuous integration dan continuous deployment (CI/CD)
  • Encoding media

Anda dapat menggunakan VM Spot dengan jenis mesin apa pun, kecuali jenis mesin A4X, X4, dan bare metal. Alokasi padat bergantung pada ketersediaan resource. Untuk membantu memastikan alokasi yang lebih dekat, Anda dapat menerapkan kebijakan penempatan yang ringkas ke VM Spot.

Anda dapat menggunakan Spot VM dengan opsi deployment padat berikut:

Pilih opsi konsumsi dan dapatkan kapasitas

Opsi penggunaan menentukan cara resource diperoleh untuk cluster Anda. Untuk membuat cluster yang menggunakan kemampuan pengelolaan cluster yang ditingkatkan, Anda harus meminta blok kapasitas untuk deployment padat.

Tabel berikut merangkum perbedaan utama antara opsi penggunaan untuk blok kapasitas:

Opsi konsumsi Pemesanan untuk masa mendatang untuk blok kapasitas Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender) Flex-start Spot
Karakteristik workload Workload terdistribusi skala besar yang berjalan lama dan memerlukan resource yang dialokasikan secara padat Workload berdurasi singkat yang memerlukan resource yang dialokasikan secara padat Workload berdurasi singkat yang memerlukan resource yang dialokasikan secara padat Workload fault-tolerant
Masa pakai Kapan saja Hingga 90 hari Hingga 7 hari Kapan saja, tetapi tunduk pada pengambilalihan
Preemptible Tidak Tidak Tidak Ya
Jaminan kapasitas Sangat tinggi Sangat tinggi Upaya terbaik Upaya terbaik
Kuota Pastikan Anda memiliki kuota yang cukup sebelum membuat instance. Tidak ada kuota yang dikenai biaya Kuota preemptible dikenai biaya. Kuota preemptible dikenai biaya.
Harga
Alokasi resource Padat (Dense) Padat Padat Standar (Kebijakan penempatan rapat opsional)
Model penyediaan Terikat dengan reservasi Terikat dengan reservasi Flex-start Spot
Metode pembuatan

Untuk membuat cluster dan VM HPC, Anda harus melakukan hal berikut:

  1. Mencadangkan kapasitas melalui tim akun Anda
  2. Pada tanggal dan waktu yang Anda pilih, Anda dapat menggunakan kapasitas yang dicadangkan untuk membuat cluster HPC. Lihat Memilih opsi deployment.

Untuk membuat cluster dan VM HPC, Anda harus melakukan hal berikut:

  1. Membuat permintaan pemesanan untuk masa mendatang dalam mode kalender
  2. Pada tanggal dan waktu yang Anda pilih, Anda dapat menggunakan kapasitas yang dicadangkan untuk membuat cluster HPC. Lihat Memilih opsi deployment.

Untuk membuat VM, pilih salah satu opsi berikut:

Saat kapasitas yang Anda minta tersedia, Compute Engine akan menyediakannya.

Anda dapat langsung membuat VM. Lihat Memilih opsi deployment.

Memilih opsi deployment

Workload komputasi berperforma tinggi (HPC) menggabungkan resource komputasi untuk mendapatkan performa yang lebih besar daripada performa dari satu workstation, server, atau komputer. HPC digunakan untuk menyelesaikan masalah dalam riset akademis, sains, desain, simulasi, dan business intelligence.

Untuk cluster HPC dengan kemampuan pengelolaan cluster yang ditingkatkan, pilih seri mesin H4D. Jika Anda berencana menggunakan seri mesin yang berbeda, ikuti dokumentasi di Membuat instance VM yang siap HPC, bukan menggunakan metode deployment yang tercantum di halaman ini.

Beberapa opsi deployment yang tersedia mencakup penginstalan dan konfigurasi pengorkestrasi untuk meningkatkan pengelolaan cluster HPC.

Untuk opsi yang paling tepat dalam membuat VM atau cluster untuk kasus penggunaan Anda, pilih salah satu opsi berikut:

Opsi Kasus penggunaan
Cluster Toolkit

Anda ingin menggunakan software open source yang menyederhanakan proses deployment cluster Slurm dan Google Kubernetes Engine (GKE). Cluster Toolkit dirancang agar sangat dapat disesuaikan dan diperluas. Untuk mempelajari lebih lanjut, lihat bagian berikut:

GKE Anda menginginkan fleksibilitas maksimum dalam mengonfigurasi cluster Google Kubernetes Engine berdasarkan kebutuhan beban kerja Anda. Untuk mempelajari lebih lanjut, lihat Menjalankan workload HPC dengan H4D.
Menggunakan Compute Engine

Anda menginginkan kontrol penuh atas lapisan infrastruktur sehingga Anda dapat menyiapkan orkestrator Anda sendiri. Untuk mempelajari lebih lanjut, lihat bagian berikut:

Pilih image sistem operasi

Image sistem operasi (OS) yang Anda pilih bergantung pada layanan yang Anda gunakan untuk men-deploy cluster.

  • Untuk cluster di GKE: Gunakan image node GKE, seperti Container-Optimized OS. Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster GKE, image Container-Optimized OS akan digunakan secara default. Untuk mengetahui informasi selengkapnya tentang image node, lihat Image node di dokumentasi GKE.

  • Untuk cluster di Compute Engine: Anda dapat menggunakan salah satu image berikut:

  • Untuk Cluster Slurm: Cluster Toolkit men-deploy Cluster Slurm dengan image VM HPC berbasis Rocky Linux 8 yang dioptimalkan untuk workload HPC yang terkait erat.

Buat cluster HPC Anda

Setelah meninjau proses pembuatan cluster dan membuat keputusan awal untuk workload, buat cluster menggunakan salah satu opsi deployment.

Kemampuan pengelolaan cluster yang ditingkatkan untuk cluster HPC Anda

Saat membuat instance H4D dengan resource yang dialokasikan secara padat menggunakan metode deployment yang disebutkan dalam Memilih opsi deployment, Anda dapat menggunakan kemampuan pengelolaan cluster HPC yang ditingkatkan dengan instance Anda.

Untuk mengetahui informasi selengkapnya tentang kemampuan ini, lihat Pengelolaan cluster HPC yang ditingkatkan dengan instance H4D.

Langkah berikutnya