Halaman ini menjelaskan cara membuat cluster Slurm Komputasi Performa Tinggi (HPC) yang menggunakan akses memori langsung jarak jauh (RDMA) dengan VM H4D yang memiliki kemampuan pengelolaan cluster yang ditingkatkan. Anda menggunakan gcloud CLI dan Cluster Toolkit untuk mengonfigurasi cluster.
Seri mesin H4D dirancang khusus untuk memenuhi kebutuhan workload HPC yang menuntut. H4D menawarkan instance dengan skalabilitas beban kerja yang ditingkatkan melalui jaringan Cloud RDMA dengan throughput 200 Gbps. Untuk mengetahui informasi selengkapnya tentang jenis mesin H4D yang dioptimalkan untuk komputasi di Google Cloud, lihat Seri mesin H4D.
Sebelum memulai
Sebelum membuat cluster Slurm, jika Anda belum melakukannya, selesaikan langkah-langkah berikut:
- Pilih opsi konsumsi: opsi yang Anda pilih menentukan cara Anda ingin mendapatkan dan menggunakan resource vCPU.
- Dapatkan kapasitas: dapatkan kapasitas untuk opsi penggunaan yang dipilih.
- Pastikan Anda memiliki kuota Filestore yang cukup: Anda memerlukan kapasitas zona (juga dikenal sebagai SSD skala tinggi) minimal 10.240 GiB.
- Untuk memeriksa kuota, lihat Melihat kuota khusus API.
- Jika Anda tidak memiliki kuota yang cukup, minta penambahan kuota.
- Instal Cluster Toolkit: untuk menyediakan cluster Slurm, Anda harus menggunakan
Cluster Toolkit versi
v1.62.0atau yang lebih baru.Untuk menginstal Cluster Toolkit, lihat Menyiapkan Cluster Toolkit.
Untuk mempelajari lebih lanjut, lihat Memilih opsi pemakaian dan mendapatkan kapasitas.
In the Google Cloud console, activate Cloud Shell.
At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
Menyiapkan bucket penyimpanan
Blueprint cluster menggunakan modul Terraform untuk menyediakan infrastruktur Cloud. Praktik terbaik saat bekerja dengan Terraform adalah menyimpan status dari jarak jauh dalam file yang mendukung versi. Di Google Cloud, Anda dapat membuat bucket Cloud Storage yang mengaktifkan pengelolaan versi.
Untuk membuat bucket ini dan mengaktifkan pembuatan versi dari CLI, jalankan perintah berikut:
gcloud storage buckets create gs://BUCKET_NAME \
--project=PROJECT_ID \
--default-storage-class=STANDARD --location=BUCKET_REGION \
--uniform-bucket-level-access
gcloud storage buckets update gs://BUCKET_NAME --versioning
Ganti kode berikut:
BUCKET_NAME: nama untuk bucket Cloud Storage Anda yang memenuhi persyaratan penamaan bucket.PROJECT_ID: Project ID Anda.BUCKET_REGION: lokasi yang tersedia.
Buka direktori Cluster Toolkit
Pastikan Anda berada di direktori Cluster Toolkit dengan menjalankan perintah berikut:
cd cluster-toolkit
Deployment cluster ini memerlukan Cluster Toolkit v1.70.0 atau yang lebih baru. Untuk memeriksa versi Anda, Anda dapat menjalankan perintah berikut:
./gcluster --version
Membuat file deployment
Buat file deployment untuk menentukan bucket Cloud Storage, menetapkan nama untuk jaringan dan subnetwork, serta menetapkan variabel deployment seperti project ID, region, dan zona.
Untuk membuat file deployment, ikuti langkah-langkah untuk jenis mesin H4D:
Parameter yang perlu Anda tambahkan ke file deployment bergantung pada opsi penggunaan yang Anda gunakan untuk deployment. Pilih tab yang sesuai dengan opsi konsumsi yang ingin Anda gunakan.
Terikat dengan reservasi
Untuk membuat file deployment, gunakan editor teks untuk membuat file YAML bernama
h4d-slurm-deployment.yaml dan tambahkan konten berikut.
terraform_backend_defaults:
type: gcs
configuration:
bucket: BUCKET_NAME
vars:
deployment_name: DEPLOYMENT_NAME
project_id: PROJECT_ID
region: REGION
zone: ZONE
h4d_cluster_size: NUMBER_OF_VMS
h4d_reservation_name: RESERVATION_NAME
Ganti kode berikut:
BUCKET_NAME: nama bucket Cloud Storage Anda, yang Anda buat di bagian sebelumnya.DEPLOYMENT_NAME: nama untuk deployment Anda. Jika membuat beberapa cluster, pastikan Anda memilih nama yang unik untuk setiap cluster.PROJECT_ID: Project ID Anda.REGION: region yang memiliki mesin yang dipesan.ZONE: zona tempat Anda ingin menyediakan cluster. Jika Anda menggunakan opsi konsumsi berbasis reservasi, informasi region dan zona diberikan oleh tim akun Anda saat kapasitas dikirimkan.NUMBER_OF_VMS: jumlah VM yang Anda inginkan untuk cluster.RESERVATION_NAME: nama pemesanan Anda.
Flex-start
Untuk membuat file deployment, gunakan editor teks untuk membuat file YAML bernama
h4d-slurm-deployment.yaml dan tambahkan konten berikut.
terraform_backend_defaults:
type: gcs
configuration:
bucket: BUCKET_NAME
vars:
deployment_name: DEPLOYMENT_NAME
project_id: PROJECT_ID
region: REGION
zone: ZONE
h4d_cluster_size: NUMBER_OF_VMS
h4d_dws_flex_enabled: true
Ganti kode berikut:
BUCKET_NAME: nama bucket Cloud Storage Anda, yang Anda buat di bagian sebelumnya.DEPLOYMENT_NAME: nama untuk deployment Anda. Jika membuat beberapa cluster, pastikan Anda memilih nama yang unik untuk setiap cluster.PROJECT_ID: Project ID Anda.REGION: region tempat Anda ingin menyediakan cluster.ZONE: zona tempat Anda ingin menyediakan cluster.NUMBER_OF_VMS: jumlah VM yang Anda inginkan untuk cluster.
Deployment ini menyediakan node komputasi statis,
yang berarti cluster memiliki sejumlah node tetap setiap saat. Jika Anda ingin mengaktifkan penskalaan otomatis cluster, gunakan file examples/h4d/hpc-slurm-h4d.yaml dan edit nilai node_count_static dan node_count_dynamic_max agar sesuai dengan nilai berikut:
node_count_static: 0
node_count_dynamic_max: $(vars.h4d_cluster_size)
Spot
Untuk membuat file deployment, gunakan editor teks untuk membuat file YAML bernama
h4d-slurm-deployment.yaml dan tambahkan konten berikut.
terraform_backend_defaults:
type: gcs
configuration:
bucket: BUCKET_NAME
vars:
deployment_name: DEPLOYMENT_NAME
project_id: PROJECT_ID
region: REGION
zone: ZONE
h4d_cluster_size: NUMBER_OF_VMS
h4d_enable_spot_vm: true
Ganti kode berikut:
BUCKET_NAME: nama bucket Cloud Storage Anda, yang Anda buat di bagian sebelumnya.DEPLOYMENT_NAME: nama untuk deployment Anda. Jika membuat beberapa cluster, pastikan Anda memilih nama yang unik untuk setiap cluster.PROJECT_ID: Project ID Anda.REGION: region tempat Anda ingin menyediakan cluster.ZONE: zona tempat Anda ingin menyediakan cluster.NUMBER_OF_VMS: jumlah VM yang Anda inginkan untuk cluster.
Menyediakan cluster Slurm H4D
Cluster Toolkit menyediakan cluster berdasarkan file deployment yang Anda buat pada langkah sebelumnya dan blueprint cluster default. Untuk mengetahui informasi selengkapnya tentang software yang diinstal oleh blueprint, lihat pelajari lebih lanjut image kustom Slurm.
Menggunakan Cloud Shell, dari direktori tempat Anda menginstal Cluster Toolkit dan membuat file deployment, Anda dapat menyediakan cluster dengan perintah berikut, yang menggunakan file blueprint H4D Slurm. Langkah ini memerlukan waktu sekitar 20-30 menit.
./gcluster deploy -d h4d-slurm-deployment.yaml examples/hpc-slurm-h4d/hpc-slurm-h4d.yaml --auto-approve
Hubungkan ke cluster Slurm
Untuk mengakses cluster, Anda harus login ke node login Slurm. Untuk login, Anda dapat menggunakan konsol Google Cloud atau Google Cloud CLI.
Konsol
Buka halaman Compute Engine > VM instances.
Cari node login. File tersebut harus memiliki nama dengan pola
DEPLOYMENT_NAME+login-001.Dari kolom Connect node login, klik SSH.
gcloud
Untuk terhubung ke node login, selesaikan langkah-langkah berikut:
Identifikasi node login menggunakan perintah
gcloud compute instances list.gcloud compute instances list \ --zones=
ZONE\ --filter="name ~ login" --format "value(name)"Jika output mencantumkan beberapa cluster Slurm, Anda dapat mengidentifikasi node login dengan
DEPLOYMENT_NAMEyang Anda tentukan.Gunakan perintah
gcloud compute sshuntuk terhubung ke node login.gcloud compute ssh LOGIN_NODE \ --zone=
ZONE--tunnel-through-iapGanti kode berikut:
ZONE: zona tempat VM untuk cluster Anda berada.LOGIN_NODE: nama node login, yang Anda identifikasi pada langkah sebelumnya.
Men-deploy ulang cluster Slurm
Jika perlu menambah jumlah node komputasi atau menambahkan partisi baru ke cluster, Anda mungkin perlu memperbarui konfigurasi untuk cluster Slurm dengan men-deploy ulang.
Untuk men-deploy ulang cluster menggunakan image yang ada, lakukan hal berikut:
Jalankan perintah berikut:
./gcluster deploy -d h4d-slurm-deployment.yaml examples/h4d/h4d-slurm-deployment.yaml --only cluster-env,cluster --auto-approve -w
Perintah ini hanya untuk deployment ulang jika image sudah ada; perintah ini hanya melakukan deployment ulang cluster dan infrastrukturnya.
Hancurkan cluster Slurm
Untuk menghapus cluster Slurm dan instance di dalamnya, selesaikan langkah-langkah berikut:
Putuskan koneksi dari cluster jika Anda belum melakukannya.
Sebelum menjalankan perintah destroy, buka root direktori Cluster Toolkit. Secara default, DEPLOYMENT_FOLDER terletak di root direktori Cluster Toolkit.
Untuk menghancurkan cluster, jalankan:
./gcluster destroy DEPLOYMENT_FOLDER --auto-approve
Ganti kode berikut:
DEPLOYMENT_FOLDER: nama folder deployment. Biasanya sama dengan DEPLOYMENT_NAME.
Setelah penghapusan cluster selesai, Anda akan melihat pesan yang mirip dengan berikut:
Destroy complete! Resources: xx destroyed.
Untuk mempelajari cara menghancurkan infrastruktur dengan benar dan petunjuk deployment manual lanjutan, lihat folder deployment yang berada di root direktori Cluster Toolkit: DEPLOYMENT_FOLDER/instructions.txt
Langkah berikutnya
- Memverifikasi pemakaian reservasi
- Melihat topologi VM
- Mengelola acara host di seluruh VM
- Mengelola acara penyelenggara di seluruh reservasi
- Memantau VM di cluster Slurm Anda
- Laporkan host yang bermasalah