Buat cluster Slurm terkelola sepenuhnya dengan dua VM A4
Panduan memulai ini menjelaskan cara membuat dan menghubungkan ke cluster Slurm menggunakan Cluster Director. Cluster yang Anda buat menggunakan dua instance virtual machine (VM) A4, yang didesain untuk membantu cluster Slurm Anda menangani workload inferensi dan pelatihan model berskala besar secara efisien.
Cluster Director adalah layanan terkelola yang menyederhanakan dan mengotomatiskan deployment cluster, sehingga mengurangi overhead operasional dan memungkinkan Anda berfokus pada menjalankan workload. Jika Anda menginginkan kontrol lebih besar atas deployment dan pengelolaan cluster, buat cluster Slurm menggunakan Cluster Toolkit.
Untuk mengikuti panduan langkah demi langkah untuk tugas ini langsung di Google Cloud konsol, klik Pandu saya:
Sebelum memulai
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Aktifkan Hypercompute Cluster API, Compute Engine API, Filestore API, Google Cloud Managed Lustre API, Cloud Logging API, dan Cloud Monitoring API:
Aktifkan API- Verifikasi bahwa project Anda dan akun layanan default Compute Engine memiliki peran Identity and Access Management (IAM) berikut:
-
Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan panduan memulai cepat ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:
-
Untuk membuat dan mengelola cluster:
Cluster Director Editor (
roles/hypercomputecluster.editor) -
Untuk membuat dan mengelola VM dalam cluster:
Compute Instance Admin (v1) (
roles/compute.instanceAdmin.v1) -
Untuk terhubung ke node login di cluster:
- Compute OS Login (
roles/compute.osLogin) - IAP-Secured Tunnel User (
roles/iap.tunnelResourceAccessor)
- Compute OS Login (
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
-
Untuk membuat dan mengelola cluster:
Cluster Director Editor (
-
Untuk mendapatkan izin yang diperlukan untuk menyelesaikan panduan memulai ini, minta administrator untuk memberi Anda peran IAM berikut pada akun layanan default Compute Engine:
-
Untuk membuat cluster:
Service Account User (
roles/iam.serviceAccountUser) -
Untuk mengelola resource dalam cluster:
- Logs Writer (
roles/logging.logWriter) - Monitoring Metric Writer (
roles/monitoring.metricWriter) - Storage Object Viewer (
roles/storage.objectViewer)
- Logs Writer (
-
Untuk membuat cluster:
Service Account User (
-
- Jika organisasi tempat project Anda berada memiliki kebijakan image tepercaya (
constraints/compute.trustedImageProjects), verifikasi bahwa projectclusterdirector-public-imagesdisertakan dalam daftar project yang diizinkan. Untuk melihat kebijakan image tepercaya organisasi Anda, lihat Menetapkan batasan akses image.
Biaya
Panduan memulai ini menggunakan resource Google Cloud yang dapat ditagih berikut:
Compute Engine:
Dua VM dengan jenis mesin A4
Satu volume Persistent Disk untuk node login Slurm dengan 100 GB
Satu volume Google Cloud Hyperdisk Balanced dengan 100 GB untuk VM A4
Filestore: instance Filestore dengan 10 TiB (10.240 GiB)
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.
Membuat cluster Slurm
Untuk membuat cluster Slurm, selesaikan langkah-langkah berikut:
Di konsol Google Cloud , buka halaman Cluster Director.
Klik Buat cluster.
Pada dialog yang muncul, klik Konfigurasi langkah demi langkah. Halaman Create cluster akan muncul.
Di kolom Cluster name, masukkan
cluster001.Di bagian Compute, klik Configure resources. Di panel Add resource configuration yang muncul, selesaikan langkah-langkah berikut:
Dalam daftar GPU type, pilih NVIDIA B200 180GB.
Di kolom Number of instances, masukkan
2.Di bagian Opsi pemakaian, pilih opsi pemakaian yang ingin Anda gunakan untuk mendapatkan resource.
Di bagian Lokasi, tentukan Region dan Zona tempat Anda ingin membuat VM A4, atau tempat reservasi yang ingin Anda gunakan untuk membuat VM berada.
Klik Done.
Di menu navigasi, klik Storage.
Di bagian Penyimpanan, klik Edit konfigurasi penyimpanan. Di panel Add storage configuration yang muncul, selesaikan langkah-langkah berikut:
Di bagian Kapasitas, pilih 10-100 TiB, dengan kenaikan 2,5 TiB.
Klik Done.
Klik Create. Halaman Cluster akan muncul.
Mungkin perlu waktu beberapa saat untuk menyelesaikan pembuatan cluster. Waktu penyelesaian bergantung pada jumlah VM yang Anda minta dan ketersediaan resource di zona VM. Jika resource yang Anda minta tidak tersedia, Cluster Director akan mempertahankan permintaan pembuatan hingga resource tersedia.
Melihat permintaan pembuatan cluster
Untuk meninjau permintaan pembuatan cluster, selesaikan langkah-langkah berikut:
Di tabel Clusters, di kolom Name, klik cluster001. Halaman yang memberikan detail cluster akan muncul, dan tab Details akan dipilih.
Di bagian Compute, temukan baris Status. Saat AI Hypercomputer menetapkan nilainya ke Siap, Anda dapat melanjutkan ke bagian berikutnya.
Menghubungkan ke cluster Anda melalui SSH
Untuk terhubung ke cluster melalui SSH, selesaikan langkah-langkah berikut:
Klik tab Nodes.
Di tabel Login nodes, temukan baris yang berisi node cluster001-login-001. Di baris tersebut, di kolom Connect, klik tombol SSH. Jendela SSH-in-browser akan muncul.
Jika diminta, klik Authorize. Menghubungkan ke cluster Anda dapat memerlukan waktu beberapa saat. Setelah terminal siap, lanjutkan ke bagian berikutnya.
Menjalankan tugas contoh
Di jendela SSH-in-browser, selesaikan langkah-langkah berikut:
Untuk memverifikasi bahwa Slurm sedang berjalan, jalankan perintah berikut:
sinfoUntuk mengirimkan tugas pengujian yang menampilkan nama host node, jalankan perintah berikut:
srun hostnameUntuk mengirimkan tugas batch yang tidak aktif selama 30 detik, jalankan perintah berikut:
sbatch --wrap="sleep 30"Untuk memeriksa status tugas dalam antrean, jalankan perintah berikut:
squeueUntuk melihat data akuntansi tugas, jalankan perintah berikut:
sacct
Anda telah berhasil membuat cluster Slurm, terhubung ke cluster tersebut, dan menjalankan contoh tugas. Jika AI Hypercomputer masih belum membuat VM A4, Anda dapat menunggu cluster membuat VM, mengubah cluster untuk menambahkan atau menghapus VM, atau menghapus cluster untuk menghindari biaya yang tidak perlu.
Pembersihan
Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
Menghapus project Anda
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- Di Konsol Google Cloud , buka halaman Manage resources.
- Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
- Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.
Hapus cluster Anda
Untuk menghapus cluster, dan resource terkaitnya, yang Anda buat sebagai bagian dari panduan memulai ini, selesaikan langkah-langkah berikut:
Di halaman yang berisi detail cluster Anda, klik Hapus.
Pada dialog yang muncul, masukkan
cluster001, lalu klik Hapus untuk mengonfirmasi.