Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Membuat cluster Slurm terkelola sepenuhnya untuk workload AI

Dokumen ini menjelaskan cara mengonfigurasi dan men-deploy cluster Slurm yang dikelola sepenuhnya yang menggunakan jenis mesin A4X, A4, A3 Ultra, A3 Mega, atau A3 High. Untuk mempelajari lebih lanjut jenis mesin yang dioptimalkan untuk akselerator ini, lihat Jenis mesin GPU.

Langkah-langkah dalam dokumen ini menunjukkan cara membuat cluster Slurm menggunakan Cluster Director. Cluster Director adalah produk yang mengotomatiskan penyiapan dan konfigurasi cluster Slurm. Google CloudLayanan ini dirancang untuk administrator IT dan peneliti AI yang ingin menghindari overhead pengelolaan cluster dan berfokus pada menjalankan workload mereka. Jika Anda menginginkan kontrol yang lebih besar atas deployment dan pengelolaan cluster, buat cluster menggunakan Cluster Toolkit.

Batasan

Bergantung pada jenis mesin yang digunakan instance Compute Engine di cluster Anda, batasan berikut berlaku:

A4X

Anda tidak menerima diskon untuk penggunaan berkelanjutan atau diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin ini.
Anda hanya dapat membuat instance di region dan zona tertentu.
Anda tidak dapat menggunakan Persistent Disk (regional atau zonal). Anda hanya dapat menggunakan Google Cloud Hyperdisk.
Jenis mesin ini hanya tersedia di platform NVIDIA Grace.
Perubahan jenis mesin tidak didukung untuk A4X. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin ini. Untuk mengetahui daftar sistem operasi Linux yang didukung, tinjau sistem operasi yang didukung untuk instance GPU.
Untuk instance A4X, saat Anda menggunakan ethtool -S untuk memantau jaringan GPU, penghitung port fisik yang berakhiran _phy tidak diperbarui. Hal ini adalah perilaku yang diharapkan untuk instance yang menggunakan arsitektur Fungsi Virtual (VF) MRDMA. Untuk mengetahui informasi selengkapnya, lihat Fungsi MRDMA dan alat pemantauan jaringan.
Instance A4X tidak mendukung hal berikut:
Anda tidak dapat melampirkan disk Hyperdisk ML yang dibuat sebelum 4 Februari 2026 ke jenis mesin A4X.

A4

Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A4.
Anda hanya dapat menggunakan jenis mesin A4 di region dan zona tertentu.
Anda tidak dapat menggunakan Persistent Disk (regional atau zonal). Anda hanya dapat menggunakan Google Cloud Hyperdisk.
Jenis mesin A4 hanya tersedia di platform CPU Emerald Rapids.
Anda tidak dapat mengubah jenis mesin instance ke atau dari jenis mesin A4. Anda harus membuat instance baru dengan jenis mesin ini.
Jenis mesin A4 tidak mendukung sole-tenancy.
Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A4.
Untuk instance A4, saat Anda menggunakan ethtool -S untuk memantau jaringan GPU, penghitung port fisik yang berakhiran _phy tidak diperbarui. Ini adalah perilaku yang diharapkan untuk instance yang menggunakan arsitektur Fungsi Virtual (VF) MRDMA. Untuk mengetahui informasi selengkapnya, lihat Fungsi MRDMA dan alat pemantauan jaringan.
Anda tidak dapat melampirkan disk Hyperdisk ML yang dibuat sebelum 4 Februari 2026 ke jenis mesin A4.

A3 Ultra

Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A3 Ultra.
Anda hanya dapat menggunakan jenis mesin A3 Ultra di region dan zona tertentu.
Anda tidak dapat menggunakan Persistent Disk (regional atau zonal). Anda hanya dapat menggunakan Google Cloud Hyperdisk.
Jenis mesin A3 Ultra hanya tersedia di platform CPU Emerald Rapids.
Perubahan jenis mesin tidak didukung untuk jenis mesin A3 Ultra. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A3 Ultra.
Jenis mesin A3 Ultra tidak mendukung sole-tenancy.
Untuk instance A3 Ultra, saat Anda menggunakan ethtool -S untuk memantau jaringan GPU, penghitung port fisik yang berakhiran _phy tidak diperbarui. Hal ini adalah perilaku yang diharapkan untuk instance yang menggunakan arsitektur Fungsi Virtual (VF) MRDMA. Untuk mengetahui informasi selengkapnya, lihat Fungsi MRDMA dan alat pemantauan jaringan.

A3 Mega

Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A3 Mega.
Anda hanya dapat menggunakan jenis mesin A3 Mega di region dan zona tertentu.
Anda tidak dapat menggunakan Persistent Disk regional pada instance yang menggunakan jenis mesin A3 Mega.
Jenis mesin A3 Mega hanya tersedia di platform CPU Sapphire Rapids.
Perubahan jenis mesin tidak didukung untuk jenis mesin A3 Mega. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A3 Mega.

A3 Tinggi

Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A3 Tinggi.
Anda hanya dapat menggunakan jenis mesin A3 High di region dan zona tertentu.
Anda tidak dapat menggunakan Persistent Disk regional pada instance yang menggunakan jenis mesin A3 High.
Jenis mesin A3 High hanya tersedia di platform CPU Sapphire Rapids.
Perubahan jenis mesin tidak didukung untuk jenis mesin A3 High. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A3 High.
Anda hanya dapat menggunakan a3-highgpu-8g. Jenis mesin A3 High dengan kurang dari 8 GPU tidak didukung.

Sebelum memulai

Sebelum membuat cluster Slurm, jika Anda belum melakukannya, selesaikan langkah-langkah berikut:

Pilih opsi pemakaian: pilihan opsi pemakaian menentukan cara Anda mendapatkan dan menggunakan resource GPU. Untuk mempelajari lebih lanjut, lihat Memilih opsi pemakaian.
Mendapatkan kapasitas: proses untuk mendapatkan kapasitas berbeda untuk setiap opsi penggunaan. Untuk mempelajari proses mendapatkan kapasitas untuk opsi pemakaian yang Anda pilih, lihat Ringkasan kapasitas.
Pastikan Anda memiliki kuota kapasitas Filestore yang cukup: Anda harus memiliki kuota Filestore yang cukup di region target sebelum men-deploy. Kapasitas minimum yang diperlukan bergantung pada jenis mesin di cluster Anda:
- A4X Max, A4X, A4, A3 Ultra, dan A3 Mega: memerlukan kapasitas HIGH_SCALE_SSD (zonal) minimal 10 TiB (10.240 GiB).
- A3 Tinggi: memerlukan kapasitas BASIC_SSD (standar) minimum 2,5 TiB (2.560 GiB).
Untuk memeriksa kuota atau meminta penambahan kuota, lihat artikel berikut:
- Untuk memeriksa kuota di project Anda, lihat Melihat kuota khusus API.
- Jika Anda tidak memiliki cukup kuota, maka minta penambahan kuota.
Verifikasi kebijakan image tepercaya: jika organisasi tempat project Anda berada memiliki kebijakan image tepercaya (constraints/compute.trustedImageProjects), verifikasi bahwa project clusterdirector-public-images disertakan dalam daftar project yang diizinkan. Untuk mempelajari lebih lanjut, lihat Menyiapkan kebijakan image tepercaya.

Peran yang diperlukan

Untuk membuat cluster Slurm, Anda memerlukan peran dan izin IAM berikut:

Untuk mendapatkan izin yang Anda perlukan untuk menyelesaikan panduan memulai cepat ini, minta administrator Anda untuk memberi Anda peran IAM berikut di project Anda:
- Untuk membuat dan mengelola cluster: Cluster Director Editor (roles/hypercomputecluster.editor)
- Untuk membuat dan mengelola VM dalam cluster: Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1)
- Untuk terhubung ke node login di cluster:
  - Compute OS Login (roles/compute.osLogin)
  - IAP-Secured Tunnel User (roles/iap.tunnelResourceAccessor)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Untuk mendapatkan izin yang diperlukan untuk menyelesaikan panduan memulai ini, minta administrator untuk memberi Anda peran IAM berikut di akun layanan default Compute Engine:
- Untuk membuat cluster: Service Account User (roles/iam.serviceAccountUser)
- Untuk mengelola resource di cluster:
  - Logs Writer (roles/logging.logWriter)
  - Monitoring Metric Writer (roles/monitoring.metricWriter)
  - Storage Object Viewer (roles/storage.objectViewer)

Membuat cluster Slurm

Untuk membuat cluster yang dioptimalkan AI menggunakan Cluster Director, selesaikan langkah-langkah berikut:

Mengonfigurasi konfigurasi resource komputasi
Mengonfigurasi jaringan
Mengonfigurasi resource penyimpanan
Mengonfigurasi lingkungan Slurm

Mengonfigurasi konfigurasi resource komputasi

Untuk mengonfigurasi konfigurasi resource komputasi saat membuat cluster, selesaikan langkah-langkah berikut:

Di konsol Google Cloud , buka halaman Cluster Director.

Buka Cluster Director
Klik Buat cluster.
Pada dialog yang muncul, klik Arsitektur referensi. Halaman Create a cluster akan terbuka.
Klik salah satu template yang tersedia. Anda dapat mengedit template secara opsional untuk menyesuaikannya dengan kebutuhan workload Anda.
Klik Customize.
Di bagian Compute, di kolom Cluster name, masukkan nama untuk cluster Anda. Nama dapat berisi hingga 10 karakter, dan hanya boleh menggunakan angka atau huruf kecil (a-z).
Untuk menambahkan informasi ke konfigurasi resource komputasi yang telah dikonfigurasi sebelumnya, atau mengedit jumlah dan jenis instance komputasi yang ditentukan oleh konfigurasi, lakukan hal berikut:
1. Di bagian Compute, klik Edit resource configuration. Panel Tambahkan konfigurasi resource akan muncul.
2. Opsional: Untuk mengubah nama konfigurasi resource komputasi, masukkan nama baru di kolom Name.
3. Opsional: Untuk mengubah jumlah dan jenis instance komputasi yang digunakan cluster Anda, di bagian Konfigurasi mesin, ikuti perintah untuk memperbarui resource komputasi.
4. Di bagian Opsi pemakaian, tentukan opsi pemakaian yang ingin Anda gunakan untuk mendapatkan resource:
  - Untuk membuat instance komputasi menggunakan reservasi, lakukan langkah-langkah berikut:
    1. Klik tab Use reservation.
    2. Klik Pilih reservasi. Panel Pilih reservasi akan muncul. Jika ingin menggunakan reservasi VM A4X, Anda dapat memilih blok atau sub-blok secara opsional untuk mengontrol penempatan VM.
    3. Pilih reservasi yang ingin Anda gunakan. Kemudian, klik Pilih. Tindakan ini akan otomatis menetapkan Region dan Zone sumber daya komputasi Anda.
  - Untuk membuat VM mulai fleksibel, lakukan hal berikut:
    1. Klik tab Flex start.
    2. Di bagian Time limit for the VM, tentukan durasi run untuk instance komputasi. Nilainya harus antara 10 menit dan 7 hari.
    3. Di bagian Location, pilih region tempat Anda ingin membuat VM mulai fleksibel. Konsol Google Cloud secara otomatis memfilter region yang tersedia untuk hanya menampilkan region yang mendukung VM mulai fleksibel untuk jenis mesin yang Anda pilih.
  - Untuk membuat Spot VM, lakukan hal berikut:
    1. Klik tab Gunakan tempat.
    2. Dalam daftar Pada penghentian VM, pilih salah satu opsi berikut:
      - Untuk menghapus VM Spot saat terjadi preemption, pilih Hapus.
      - Untuk menghentikan Spot VM saat terjadi preemption, pilih Hentikan.
    3. Di bagian Location, pilih Region dan Zone tempat Anda ingin membuat VM Spot. Konsol Google Cloud secara otomatis memfilter region yang tersedia untuk hanya menampilkan region yang mendukung Spot VM untuk jenis mesin yang Anda pilih.
5. Klik Done.
6. Opsional: Untuk membuat konfigurasi resource komputasi tambahan untuk partisi, klik Tambahkan konfigurasi resource, lalu ikuti perintah untuk menentukan resource komputasi.
Klik Lanjutkan.

Mengonfigurasi jaringan

Untuk mengonfigurasi jaringan yang digunakan cluster Anda, selesaikan langkah-langkah berikut:

Di bagian Choose a Virtual Private Cloud (VPC) network, lakukan salah satu hal berikut:
- Direkomendasikan: Agar AI Hypercomputer otomatis membuat jaringan VPC yang telah dikonfigurasi sebelumnya untuk cluster Anda, lakukan hal berikut:
  1. Pilih Buat jaringan VPC baru.
  2. Di kolom Network name, masukkan nama untuk jaringan VPC.
- Untuk menggunakan jaringan VPC atau VPC Bersama yang ada, lakukan hal berikut:
  1. Pilih Gunakan jaringan VPC di project saat ini atau Gunakan jaringan VPC Bersama yang dihosting di project lain.
  2. Di daftar Select VPC network atau Shared VPC network, pilih jaringan VPC atau VPC Bersama yang memenuhi konfigurasi yang diperlukan.
  3. Dalam daftar Select subnetwork, pilih subnetwork yang ada.
Klik Lanjutkan.

Mengonfigurasi resource penyimpanan

Saat Anda membuat cluster dari template Cluster Director, Cluster Director akan otomatis mengonfigurasi instance Filestore atau Managed Lustre sebagai resource penyimpanan untuk cluster Anda.

Untuk menambahkan atau mengedit resource penyimpanan yang digunakan cluster Anda secara opsional, di bagian Storage, selesaikan langkah-langkah berikut. Untuk mengetahui informasi selengkapnya tentang layanan penyimpanan yang dapat Anda konfigurasi, lihat Layanan penyimpanan yang didukung untuk Cluster Director.

Opsional: Untuk mengedit resource penyimpanan, klik Edit paket penyimpanan, lalu ikuti perintah untuk memperbarui konfigurasi resource penyimpanan.
Opsional: Untuk menambahkan resource penyimpanan ke cluster, klik Add storage configuration, lalu ikuti perintah untuk menentukan konfigurasi resource penyimpanan.

Untuk melihat layanan penyimpanan yang tersedia yang dapat Anda konfigurasi, lihat Layanan penyimpanan yang didukung untuk Cluster Director.
Klik Lanjutkan.

Mengonfigurasi lingkungan Slurm

Untuk mengonfigurasi lingkungan Slurm di cluster Anda, selesaikan langkah-langkah berikut:

Opsional: Untuk mengedit jumlah dan jenis instance komputasi yang digunakan node login, luaskan bagian Login node, lalu ikuti perintah untuk memperbarui resource komputasi.
Opsional: Untuk mengedit partisi cluster guna mengatur sumber daya komputasi, luaskan bagian Partisi, lalu lakukan salah satu hal berikut:
- Untuk menambahkan partisi, klik Tambahkan partisi, lalu lakukan hal berikut:
  1. Di kolom Partition name, masukkan nama partisi.
  2. Untuk mengedit nodeset, klik Toggle nodeset. Jika tidak, untuk menambahkan nodeset, klik Tambahkan nodeset.
  3. Di kolom Nodeset name, masukkan nama untuk nodeset Anda.
  4. Di kolom Konfigurasi resource, pilih konfigurasi resource komputasi yang Anda buat pada langkah sebelumnya.
  5. Dalam daftar Source image, pilih salah satu image OS yang didukung untuk AI Hypercomputer.
  6. Di kolom Jumlah node statis, masukkan jumlah minimum instance komputasi yang harus selalu berjalan di cluster.
  7. Di kolom Dynamic node count, masukkan jumlah maksimum instance komputasi yang dapat ditingkatkan oleh AI Hypercomputer untuk cluster selama peningkatan traffic.
    
    Penting: Jika Anda membuat instance komputasi di nodeset menggunakan reservasi, terutama reservasi bersama, pastikan reservasi memiliki cukup resource yang tersedia untuk membuat jumlah maksimum instance komputasi yang ditentukan. Workload lain yang menggunakan reservasi yang sama dapat menggunakannya sepenuhnya dan, oleh karena itu, AI Hypercomputer mungkin tidak dapat membuat lebih banyak instance komputasi di nodeset Anda.
  8. Pada daftar Boot disk type dan kolom Boot disk size, masukkan jenis dan ukuran boot disk yang akan digunakan instance komputasi.
  9. Klik Done.
- Untuk menghapus partisi, klik Hapus partisi.
Opsional: Untuk menambahkan skrip prolog atau epilog ke lingkungan Slurm Anda, lakukan hal berikut:
1. Luaskan bagian Advanced orchestration settings.
2. Di bagian Scripts, ikuti perintah untuk menambahkan skrip.
Klik Create. Halaman Cluster akan muncul. Pembuatan cluster dapat memerlukan waktu beberapa saat. Waktu penyelesaian bergantung pada jumlah instance komputasi yang Anda minta dan ketersediaan resource di zona instance komputasi. Jika resource yang Anda minta tidak tersedia, AI Hypercomputer akan mempertahankan permintaan pembuatan hingga resource tersedia. Untuk melihat status operasi pembuatan cluster, lihat detail cluster Anda.

Menghubungkan ke cluster Slurm

Saat AI Hypercomputer membuat node login Anda, status cluster akan berubah menjadi Siap. Kemudian, Anda dapat terhubung ke cluster; namun, Anda hanya dapat menjalankan workload setelah AI Hypercomputer membuat node komputasi di cluster.

Untuk terhubung ke node login cluster melalui SSH menggunakan konsolGoogle Cloud , selesaikan langkah-langkah berikut:

Di konsol Google Cloud , buka halaman Clusters.

Buka Cluster
Di tabel Clusters, di kolom Name, klik nama cluster yang Anda buat di bagian sebelumnya. Halaman yang memberikan detail cluster akan muncul, dan tab Details dipilih.
Klik tab Nodes.
Di bagian Login nodes, di kolom Connect, temukan node login cluster, yang namanya adalah CLUSTER_NAME-login-001.
Di kolom Connect dalam node login, klik tombol SSH. Jendela SSH-in-browser akan terbuka.
Jika diminta, klik Authorize. Menghubungkan ke node Anda dapat memerlukan waktu hingga satu menit.

Catatan: Jika Anda mengalami error saat terhubung ke node, lihat Memecahkan masalah error SSH.

Memverifikasi kondisi cluster Slurm

Sebelum Anda menjalankan tugas pada node komputasi, Slurm akan otomatis menjalankan pemeriksaan kondisi GPU cepat pada node. Jika node gagal dalam pemeriksaan, Slurm akan menguras node dan mencegah penjadwalan tugas baru di node tersebut.

Untuk menguji secara lebih menyeluruh kondisi GPU dan bandwidth jaringan di seluruh node komputasi dalam partisi cluster, Anda dapat menjalankan pengujian NVIDIA Collective Communications Library (NCCL) secara manual. Jika pengujian NCCL mengidentifikasi node yang tidak responsif, Anda dapat memperbaiki node atau mengubah cluster. Pengujian NCCL membantu Anda memverifikasi kondisi cluster sebelum menjalankan beban kerja penting. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi kondisi cluster.

Menghapus cluster Slurm

Untuk menghapus cluster Slurm di project Anda, pilih salah satu opsi berikut:

Di konsol Google Cloud , buka halaman Clusters.

Buka Cluster
Di tabel Cluster, di kolom Nama, klik nama cluster yang ingin Anda hapus. Halaman yang memberikan detail cluster akan muncul, dan tab Details dipilih.
Klik Delete.
Di dialog yang muncul, masukkan nama cluster Anda, lalu klik Hapus untuk mengonfirmasi. Halaman Cluster akan muncul. Penghapusan cluster Anda dapat memerlukan waktu beberapa saat hingga selesai.