Membuat cluster Slurm terkelola sepenuhnya untuk workload AI

Dokumen ini menjelaskan cara mengonfigurasi dan men-deploy cluster Slurm yang dikelola sepenuhnya yang menggunakan jenis mesin A4X, A4, A3 Ultra, A3 Mega, atau A3 High. Untuk mempelajari lebih lanjut jenis mesin yang dioptimalkan untuk akselerator ini, lihat Jenis mesin GPU.

Langkah-langkah dalam dokumen ini menunjukkan cara membuat cluster Slurm menggunakan Cluster Director. Cluster Director adalah produk yang mengotomatiskan penyiapan dan konfigurasi cluster Slurm. Google CloudLayanan ini dirancang untuk administrator IT dan peneliti AI yang ingin menghindari overhead pengelolaan cluster dan berfokus pada menjalankan workload mereka. Jika Anda menginginkan kontrol yang lebih besar atas deployment dan pengelolaan cluster, buat cluster menggunakan Cluster Toolkit.

Batasan

Bergantung pada jenis mesin yang digunakan instance Compute Engine di cluster Anda, batasan berikut berlaku:

A4X

A4

  • Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon penggunaan berkelanjutan fleksibel untuk instance yang menggunakan jenis mesin A4.
  • Anda hanya dapat menggunakan jenis mesin A4 di region dan zona tertentu.
  • Anda tidak dapat menggunakan Persistent Disk (regional atau zonal). Anda hanya dapat menggunakan Google Cloud Hyperdisk.
  • Jenis mesin A4 hanya tersedia di platform CPU Emerald Rapids.
  • Anda tidak dapat mengubah jenis mesin instance ke atau dari jenis mesin A4. Anda harus membuat instance baru dengan jenis mesin ini.
  • Jenis mesin A4 tidak mendukung tenancy tunggal.
  • Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A4.
  • Untuk instance A4, saat Anda menggunakan ethtool -S untuk memantau jaringan GPU, penghitung port fisik yang berakhiran _phy tidak diperbarui. Ini adalah perilaku yang diharapkan untuk instance yang menggunakan arsitektur Fungsi Virtual (VF) MRDMA. Untuk mengetahui informasi selengkapnya, lihat Fungsi MRDMA dan alat pemantauan jaringan.
  • Anda tidak dapat melampirkan disk Hyperdisk ML yang dibuat sebelum 4 Februari 2026 ke jenis mesin A4.

A3 Ultra

  • Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A3 Ultra.
  • Anda hanya dapat menggunakan jenis mesin A3 Ultra di region dan zona tertentu.
  • Anda tidak dapat menggunakan Persistent Disk (regional atau zonal). Anda hanya dapat menggunakan Google Cloud Hyperdisk.
  • Jenis mesin A3 Ultra hanya tersedia di platform CPU Emerald Rapids.
  • Perubahan jenis mesin tidak didukung untuk jenis mesin A3 Ultra. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
  • Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A3 Ultra.
  • Jenis mesin A3 Ultra tidak mendukung sole-tenancy.
  • Untuk instance A3 Ultra, saat Anda menggunakan ethtool -S untuk memantau jaringan GPU, penghitung port fisik yang berakhiran _phy tidak diperbarui. Hal ini adalah perilaku yang diharapkan untuk instance yang menggunakan arsitektur Fungsi Virtual (VF) MRDMA. Untuk mengetahui informasi selengkapnya, lihat Fungsi MRDMA dan alat pemantauan jaringan.

A3 Mega

  • Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A3 Mega.
  • Anda hanya dapat menggunakan jenis mesin A3 Mega di region dan zona tertentu.
  • Anda tidak dapat menggunakan Persistent Disk regional pada instance yang menggunakan jenis mesin A3 Mega.
  • Jenis mesin A3 Mega hanya tersedia di platform CPU Sapphire Rapids.
  • Perubahan jenis mesin tidak didukung untuk jenis mesin A3 Mega. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
  • Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A3 Mega.

A3 Tinggi

  • Anda tidak menerima diskon untuk penggunaan berkelanjutan dan diskon abonemen fleksibel untuk instance yang menggunakan jenis mesin A3 Tinggi.
  • Anda hanya dapat menggunakan jenis mesin A3 High di region dan zona tertentu.
  • Anda tidak dapat menggunakan Persistent Disk regional pada instance yang menggunakan jenis mesin A3 High.
  • Jenis mesin A3 High hanya tersedia di platform CPU Sapphire Rapids.
  • Perubahan jenis mesin tidak didukung untuk jenis mesin A3 High. Untuk beralih ke atau dari jenis mesin ini, Anda harus membuat instance baru.
  • Anda tidak dapat menjalankan sistem operasi Windows pada jenis mesin A3 High.
  • Anda hanya dapat menggunakan a3-highgpu-8g. Jenis mesin A3 High dengan kurang dari 8 GPU tidak didukung.

Sebelum memulai

Sebelum membuat cluster Slurm, jika Anda belum melakukannya, selesaikan langkah-langkah berikut:

  1. Pilih opsi pemakaian: pilihan opsi pemakaian menentukan cara Anda mendapatkan dan menggunakan resource GPU. Untuk mempelajari lebih lanjut, lihat Memilih opsi pemakaian.
  2. Mendapatkan kapasitas: proses untuk mendapatkan kapasitas berbeda untuk setiap opsi konsumsi. Untuk mempelajari proses untuk mendapatkan kapasitas untuk opsi konsumsi yang Anda pilih, lihat Ringkasan kapasitas.
  3. Pastikan Anda memiliki kuota kapasitas Filestore yang cukup: Anda harus memiliki kuota Filestore yang cukup di region target sebelum men-deploy. Kapasitas minimum yang diperlukan bergantung pada jenis mesin di cluster Anda:
    • A4X Max, A4X, A4, A3 Ultra, dan A3 Mega: memerlukan kapasitas HIGH_SCALE_SSD (zonal) minimal 10 TiB (10.240 GiB).
    • A3 Tinggi: memerlukan kapasitas BASIC_SSD (standar) minimum 2,5 TiB (2.560 GiB).

    Untuk memeriksa kuota atau meminta penambahan kuota, lihat artikel berikut:

  4. Verifikasi kebijakan image tepercaya: jika organisasi tempat project Anda berada memiliki kebijakan image tepercaya (constraints/compute.trustedImageProjects), verifikasi bahwa project clusterdirector-public-images disertakan dalam daftar project yang diizinkan. Untuk mempelajari lebih lanjut, lihat Menyiapkan kebijakan image tepercaya.

Peran yang diperlukan

Untuk membuat cluster Slurm, Anda memerlukan peran dan izin IAM berikut:

Membuat cluster Slurm

Untuk membuat cluster yang dioptimalkan AI menggunakan Cluster Director, selesaikan langkah-langkah berikut:

  1. Mengonfigurasi konfigurasi resource komputasi

  2. Mengonfigurasi jaringan

  3. Mengonfigurasi resource penyimpanan

  4. Mengonfigurasi lingkungan Slurm

Mengonfigurasi konfigurasi resource komputasi

Untuk mengonfigurasi konfigurasi resource komputasi saat membuat cluster, selesaikan langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Cluster Director.

    Buka Cluster Director

  2. Klik Buat cluster.

  3. Pada dialog yang muncul, klik Arsitektur referensi. Halaman Create a cluster akan terbuka.

  4. Klik salah satu template yang tersedia. Anda dapat mengedit template secara opsional untuk menyesuaikannya dengan kebutuhan workload Anda.

  5. Klik Customize.

  6. Di bagian Compute, di kolom Cluster name, masukkan nama untuk cluster Anda. Nama dapat berisi hingga 10 karakter, dan hanya boleh menggunakan angka atau huruf kecil (a-z).

  7. Untuk menambahkan informasi ke konfigurasi resource komputasi yang telah dikonfigurasi sebelumnya, atau mengedit jumlah dan jenis instance komputasi yang ditentukan oleh konfigurasi, lakukan hal berikut:

    1. Di bagian Compute, klik Edit resource configuration. Panel Tambahkan konfigurasi resource akan muncul.

    2. Opsional: Untuk mengubah nama konfigurasi resource komputasi, masukkan nama baru di kolom Name.

    3. Opsional: Untuk mengubah jumlah dan jenis instance komputasi yang digunakan cluster Anda, di bagian Konfigurasi mesin, ikuti perintah untuk memperbarui resource komputasi.

    4. Di bagian Opsi pemakaian, tentukan opsi pemakaian yang ingin Anda gunakan untuk mendapatkan resource:

      • Untuk membuat instance komputasi menggunakan reservasi, lakukan tindakan berikut:

        1. Klik tab Use reservation.

        2. Klik Pilih reservasi. Panel Pilih reservasi akan muncul. Jika ingin menggunakan reservasi VM A4X, Anda dapat memilih blok atau sub-blok secara opsional untuk mengontrol penempatan VM.

        3. Pilih reservasi yang ingin Anda gunakan. Kemudian, klik Pilih. Tindakan ini akan otomatis menetapkan Region dan Zone sumber daya komputasi Anda.

      • Untuk membuat VM mulai fleksibel, lakukan hal berikut:

        1. Klik tab Flex start.

        2. Di bagian Time limit for the VM, tentukan durasi run untuk instance komputasi. Nilai harus antara 10 menit dan 7 hari.

        3. Di bagian Location, pilih region tempat Anda ingin membuat VM mulai fleksibel. Konsol Google Cloud secara otomatis memfilter region yang tersedia untuk hanya menampilkan region yang mendukung VM mulai fleksibel untuk jenis mesin yang Anda pilih.

      • Untuk membuat Spot VM, lakukan hal berikut:

        1. Klik tab Gunakan tempat.

        2. Dalam daftar On VM termination, pilih salah satu opsi berikut:

          • Untuk menghapus VM Spot saat preemption, pilih Hapus.

          • Untuk menghentikan Spot VM saat terjadi preemption, pilih Hentikan.

        3. Di bagian Location, pilih Region dan Zone tempat Anda ingin membuat VM Spot. KonsolGoogle Cloud secara otomatis memfilter region yang tersedia untuk hanya menampilkan region yang mendukung Spot VM untuk jenis mesin yang Anda pilih.

    5. Klik Done.

    6. Opsional: Untuk membuat konfigurasi resource komputasi tambahan untuk partisi, klik Tambahkan konfigurasi resource, lalu ikuti perintah untuk menentukan resource komputasi.

  8. Klik Lanjutkan.

Mengonfigurasi jaringan

Untuk mengonfigurasi jaringan yang digunakan cluster Anda, selesaikan langkah-langkah berikut:

  1. Di bagian Choose a Virtual Private Cloud (VPC) network, lakukan salah satu hal berikut:

    • Direkomendasikan: Agar AI Hypercomputer otomatis membuat jaringan VPC yang telah dikonfigurasi sebelumnya untuk cluster Anda, lakukan hal berikut:

      1. Pilih Create a new VPC network.

      2. Di kolom Network name, masukkan nama untuk jaringan VPC.

    • Untuk menggunakan jaringan VPC atau VPC Bersama yang ada, lakukan hal berikut:

      1. Pilih Use a VPC network in the current project atau Use a Shared VPC network hosted in another project.

      2. Di daftar Select VPC network atau Shared VPC network, pilih jaringan VPC atau VPC Bersama yang memenuhi konfigurasi yang diperlukan.

      3. Dalam daftar Select subnetwork, pilih subnetwork yang ada.

  2. Klik Lanjutkan.

Mengonfigurasi resource penyimpanan

Untuk mengonfigurasi resource penyimpanan yang digunakan cluster Anda, di bagian Storage, selesaikan langkah-langkah berikut:

  1. Opsional: Untuk mengedit resource penyimpanan, klik Edit paket penyimpanan, lalu ikuti perintah untuk memperbarui konfigurasi resource penyimpanan.

  2. Opsional: Untuk menambahkan resource penyimpanan ke cluster, klik Tambahkan konfigurasi penyimpanan, lalu ikuti perintah untuk menentukan konfigurasi resource penyimpanan.

  3. Klik Lanjutkan.

Mengonfigurasi lingkungan Slurm

Untuk mengonfigurasi lingkungan Slurm di cluster Anda, selesaikan langkah-langkah berikut:

  1. Opsional: Untuk mengedit jumlah dan jenis instance komputasi yang digunakan node login, luaskan bagian Login node, lalu ikuti perintah untuk memperbarui resource komputasi.

  2. Opsional: Untuk mengedit partisi cluster guna mengatur sumber daya komputasi, luaskan bagian Partisi, lalu lakukan salah satu hal berikut:

    • Untuk menambahkan partisi, klik Tambahkan partisi, lalu lakukan hal berikut:

      1. Di kolom Partition name, masukkan nama untuk partisi.

      2. Untuk mengedit nodeset, klik Toggle nodeset. Jika tidak, untuk menambahkan nodeset, klik Tambahkan nodeset.

      3. Di kolom Nodeset name, masukkan nama untuk nodeset Anda.

      4. Di kolom Konfigurasi resource, pilih konfigurasi resource komputasi yang Anda buat pada langkah sebelumnya.

      5. Dalam daftar Source image, pilih salah satu image OS yang didukung untuk AI Hypercomputer.

      6. Di kolom Jumlah node statis, masukkan jumlah minimum instance komputasi yang harus selalu berjalan di cluster.

      7. Di kolom Dynamic node count, masukkan jumlah maksimum instance komputasi yang dapat ditingkatkan AI Hypercomputer untuk cluster selama peningkatan traffic.

      8. Pada daftar Boot disk type dan kolom Boot disk size, masukkan jenis dan ukuran boot disk yang akan digunakan instance komputasi.

      9. Klik Done.

    • Untuk menghapus partisi, klik Hapus partisi.

  3. Opsional: Untuk menambahkan skrip prolog atau epilog ke lingkungan Slurm Anda, lakukan hal berikut:

    1. Luaskan bagian Advanced orchestration settings.

    2. Di bagian Scripts, ikuti perintah untuk menambahkan skrip.

  4. Klik Create. Halaman Cluster akan muncul. Pembuatan cluster dapat memerlukan waktu beberapa saat. Waktu penyelesaian bergantung pada jumlah instance komputasi yang Anda minta dan ketersediaan resource di zona instance komputasi. Jika resource yang Anda minta tidak tersedia, AI Hypercomputer akan mempertahankan permintaan pembuatan hingga resource tersedia. Untuk melihat status operasi pembuatan cluster, lihat detail cluster Anda.

Menghubungkan ke cluster Slurm

Saat AI Hypercomputer membuat node login Anda, status cluster akan berubah menjadi Siap. Kemudian, Anda dapat terhubung ke cluster; namun, Anda hanya dapat menjalankan workload setelah AI Hypercomputer membuat node komputasi di cluster.

Untuk terhubung ke node login cluster melalui SSH menggunakan konsolGoogle Cloud , selesaikan langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Clusters.

    Buka Cluster

  2. Di tabel Clusters, di kolom Name, klik nama cluster yang Anda buat di bagian sebelumnya. Halaman yang memberikan detail cluster akan muncul, dan tab Details dipilih.

  3. Klik tab Nodes.

  4. Di bagian Login nodes, di kolom Connect, temukan node login cluster, yang namanya adalah CLUSTER_NAME-login-001.

  5. Di kolom Connect dalam node login, klik tombol SSH. Jendela SSH-in-browser akan terbuka.

  6. Jika diminta, klik Authorize. Menghubungkan ke node Anda dapat memerlukan waktu hingga satu menit.

Memverifikasi kondisi cluster Slurm

Sebelum Anda menjalankan tugas pada node komputasi, Slurm akan otomatis menjalankan pemeriksaan kondisi GPU cepat pada node. Jika node gagal dalam pemeriksaan, Slurm akan menguras node dan mencegah penjadwalan tugas baru di node tersebut.

Untuk menguji secara lebih menyeluruh kondisi GPU dan bandwidth jaringan di seluruh node komputasi dalam partisi cluster, Anda dapat menjalankan pengujian NVIDIA Collective Communications Library (NCCL) secara manual. Jika pengujian NCCL mengidentifikasi node yang tidak sehat, Anda dapat memperbaiki node atau mengubah cluster. Pengujian NCCL membantu Anda memverifikasi kondisi cluster sebelum menjalankan beban kerja penting. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi kondisi cluster.

Menghapus cluster Slurm

Untuk menghapus cluster Slurm di project Anda, pilih salah satu opsi berikut:

  1. Di konsol Google Cloud , buka halaman Clusters.

    Buka Cluster

  2. Di tabel Cluster, di kolom Nama, klik nama cluster yang ingin Anda hapus. Halaman yang memberikan detail cluster akan muncul, dan tab Details dipilih.

  3. Klik Delete.

  4. Di dialog yang muncul, masukkan nama cluster Anda, lalu klik Hapus untuk mengonfirmasi. Halaman Cluster akan muncul. Penghapusan cluster Anda dapat memerlukan waktu beberapa saat hingga selesai.

Langkah berikutnya