Ringkasan pembuatan cluster

Dokumen ini merangkum cara membuat cluster untuk workload AI Anda di AI Hypercomputer. Secara khusus, dokumen ini memandu Anda melalui proses dan pilihan yang harus dibuat saat memulai cluster.

Sebelum memulai

  • Anda harus memiliki workload yang sudah ada yang ingin Anda dukung.

  • Anda harus memahami terminologi yang umum digunakan untuk beban kerja AI dan ML, seperti pelatihan dan inferensi model.

Mulai cluster

Memulai cluster mencakup langkah-langkah berikut:

  1. Tentukan beban kerja Anda dan pilih jenis mesin
  2. Memilih opsi pemakaian dan mendapatkan kapasitas
  3. Memilih opsi deployment
  4. Pilih orchestrator
  5. Pilih sistem operasi dan image cluster
  6. Buat cluster Anda

Tentukan workload Anda dan pilih jenis mesin

Pilih jenis mesin untuk workload AI Anda. AI Hypercomputer mendukung pembuatan cluster menggunakan seri mesin A4X Max, A4X, A4, dan A3. Pertimbangkan rekomendasi berikut untuk penggunaan mesin:

  • Untuk pelatihan dan inferensi model dasar: A4X Max atau A4X

  • Untuk pelatihan, penyesuaian, dan inferensi model besar: A4 atau A3 Ultra

  • Untuk inferensi dan fine-tuning model mainstream: A3 Mega atau A3 High (8 GPU)

  • Untuk inferensi penayangan: A3 Edge

Untuk mengetahui informasi mendetail tentang setiap seri mesin, lihat Jenis mesin GPU. Untuk mengetahui informasi mendetail tentang rekomendasi workload untuk setiap mesin, lihat Konfigurasi yang direkomendasikan.

Memilih opsi pemakaian dan mendapatkan kapasitas

Pilih opsi penggunaan untuk resource GPU Anda berdasarkan ketersediaan workload dan jenis mesin yang dipilih. Misalnya, untuk menggunakan jenis mesin A4X Max atau A4X, Anda harus memesan kapasitas untuk tanggal dan waktu tertentu menggunakan model penggunaan pemesanan untuk masa mendatang. Opsi berikut merangkum model pemakaian:

  • Pemesanan untuk masa mendatang: Tersedia untuk jenis mesin A4X Max, A4X, A4, dan A3 Ultra, dengan alokasi resource padat dan diskon hingga 53% untuk vCPU dan GPU. Reservasi mendatang ideal untuk workload yang memerlukan stabilitas selama jangka waktu yang lama, seperti pra-pelatihan model dasar atau inferensi model dasar multi-host. Untuk menggunakan opsi pemakaian ini, Anda harus meminta kapasitas melalui tim akun Anda untuk tanggal dan waktu mulai pada masa mendatang.

  • Pemesanan mendatang dalam mode kalender: Tersedia untuk jenis mesin A4, A3 Ultra, A3 Mega, dan A3 High (khusus VM 8-GPU), dengan alokasi resource padat dan diskon hingga 53% untuk vCPU dan GPU. Reservasi mendatang dalam mode kalender membantu Anda memesan resource untuk workload yang berjalan hingga 90 hari dan memerlukan stabilitas, seperti model pra-pelatihan atau penyesuaian. Namun, untuk menggunakan opsi pemakaian ini, Anda harus membuat permintaan reservasi untuk mencadangkan resource pada tanggal dan waktu mendatang, dan Google Cloud harus menyetujui permintaan Anda.

  • Mulai fleksibel: Tersedia untuk semua jenis mesin GPU, kecuali A4X Max dan A4X. Dengan mulai fleksibel, Anda dapat membuat cluster padat berumur pendek yang bertahan hingga tujuh hari dan memiliki diskon hingga 53% untuk vCPU dan GPU untuk jenis mesin A2 dan yang lebih baru. Anda dapat membuat cluster Mulai fleksibel secara langsung melalui Compute Engine, Cluster Director, Cluster Toolkit, atau GKE. Namun, cluster tidak langsung tersedia; Google membuatnya segera setelah resource tersedia.

  • Spot: Tersedia untuk semua jenis mesin GPU, kecuali A4X Max dan A4X. Spot VM memungkinkan Anda membuat resource komputasi secara langsung berdasarkan ketersediaan; namun, Compute Engine dapat melakukan preempt instance virtual machine (VM) kapan saja. Spot VM diberi harga dengan diskon terbesar yang mungkin di Compute Engine (antara 61% dan 90%).

Untuk mengetahui informasi selengkapnya tentang opsi pemakaian, lihat Perbandingan opsi pemakaian.

Memilih opsi deployment

Bergantung pada tingkat kontrol yang Anda butuhkan atas deployment cluster, pilih antara deployment yang dikelola sepenuhnya atau deployment yang kurang dikelola yang memberi Anda lebih banyak kontrol atas infrastruktur.

Dikelola secara intensif

Jika Anda ingin Google men-deploy dan menyiapkan infrastruktur Anda, gunakan Cluster Director, Cluster Toolkit, atau GKE.

  • Cluster Director: produk Google Cloud yang mengotomatiskan penyiapan dan konfigurasi cluster yang kompleks, membantu Anda mengonfigurasi resource komputasi, jaringan, dan penyimpanan untuk cluster guna memaksimalkan performa dan meminimalkan downtime. Cluster Director dirancang untuk administrator IT dan peneliti AI yang ingin menghindari beban pengelolaan cluster, dan berfokus pada menjalankan workload mereka.

  • Cluster Toolkit: alat open source yang ditawarkan oleh Google yang menyederhanakan konfigurasi dan deployment cluster untuk GKE atau Compute Engine. Anda menggunakan blueprint yang telah ditentukan sebelumnya untuk men-deploy konfigurasi umum, seperti jenis mesin A4 dengan Slurm. Anda dapat mengubah cetak biru untuk menyesuaikan deployment dan stack software Anda.

  • GKE: layanan Kubernetes terkelola dan platform orkestrasi container open source. GKE menawarkan fitur seperti penskalaan otomatis dan ketersediaan tinggi. Layanan ini juga dapat mengorkestrasi aplikasi yang di-container, mendukung hardware khusus, dan kompatibel dengan ekosistem Google Cloud, sehingga sangat cocok untuk men-deploy dan mengelola workload AI atau ML. Anda dapat men-deploy cluster GKE menggunakan GKE secara langsung atau menggunakan Cluster Toolkit. Anda dapat memilih antara mode GKE Standard atau Autopilot.

Lebih sedikit dikelola, lebih banyak kontrol

Untuk kontrol yang lebih terperinci atas cluster dan software yang diinstal di dalamnya, buat cluster Compute Engine menggunakan grup instance terkelola (MIG) Compute Engine atau dengan membuat instance secara massal. Kemudian, instal secara manual software utama yang Anda butuhkan di instance.

Memilih orchestrator

Pengelola mengotomatiskan pengelolaan cluster Anda. Dengan orkestrator, Anda tidak perlu mengelola setiap instance komputasi di cluster. Orchestrator, seperti Slurm atau GKE, menangani tugas seperti antrean tugas, alokasi resource, penskalaan otomatis (dalam kasus GKE), dan tugas pengelolaan cluster sehari-hari lainnya.

  • Slurm: Slurm adalah orchestrator open source yang umum digunakan untuk workload HPC, AI, atau ML. Untuk menggunakan Slurm, Anda dapat menggunakan Cluster Toolkit (yang menawarkan blueprint cluster yang otomatis menginstal Slurm di cluster Anda), atau Anda dapat menginstal Slurm secara manual di cluster Compute Engine.

  • GKE: GKE adalah layanan terkelola yang dibangun di atas Kubernetes, platform orkestrasi container open source. GKE sangat ideal untuk men-deploy dan mengelola workload AI atau ML, karena kemampuannya untuk mengorkestrasi aplikasi dalam container, dukungan hardware khusus, dan posisinya dalam ekosistem Google Cloud. Anda dapat men-deploy cluster GKE menggunakan GKE secara langsung atau menggunakan Cluster Toolkit.

  • Bawa orkestrator Anda sendiri: Jika ingin menggunakan orkestrator lain, Anda harus menggunakannya di cluster Compute Engine Anda. Namun, membuat cluster Compute Engine adalah opsi yang paling sedikit dikelola yang ditawarkan di Google Cloud. Pilihan ini berarti Anda bertanggung jawab untuk menyiapkan, memelihara, dan mengupdate instance Anda.

Pilih image sistem operasi

Bergantung pada apakah Anda menggunakan GKE atau Compute Engine, pilih image yang berisi sistem operasi yang Anda pilih, seperti Container-Optimized OS untuk cluster GKE, atau image OS akselerator untuk cluster Compute Engine. Selain itu, Anda juga dapat memilih image Deep Learning Software Layer (DSLS) untuk container Anda.

Untuk mengetahui informasi mendetail, tinjau gambar AI Hypercomputer.

Image untuk cluster GKE

Untuk membuat cluster GKE, sebaiknya gunakan image OS container default untuk mode Standard dan Autopilot. Namun, dalam mode Standard, Anda juga dapat memilih untuk menggunakan image lain yang tersedia, seperti Ubuntu.

Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster, Anda hanya dapat menggunakan image OS container, karena ini adalah image yang dibuat ke dalam blueprint cluster. Untuk mengetahui informasi selengkapnya tentang setiap image node, lihat Image node dalam dokumentasi GKE.

GKE juga menawarkan image container Deep Learning Software Layer (DLSL) yang menginstal paket seperti NVIDIA CUDA, dan NCCL, serta framework ML seperti PyTorch, sehingga menyediakan lingkungan siap pakai untuk workload deep learning. Image container DLSL bawaan ini telah diuji dan diverifikasi agar berfungsi dengan lancar di cluster GKE.

Image OS untuk cluster Compute Engine

AI Hypercomputer menawarkan image yang dioptimalkan untuk menjalankan workload AI dan ML menggunakan Compute Engine. Pilih OS yang paling Anda kuasai:

  • Akselerator Rocky Linux 9
  • Akselerator Rocky Linux 8
  • Akselerator Ubuntu 24.04 LTS
  • Akselerator Ubuntu 22.04 LTS

Jika Anda menggunakan Cluster Toolkit, image akselerator ini sudah digabungkan ke dalam blueprint Cluster Toolkit, karena Cluster Toolkit membuat image kustom yang memperluas image OS Akselerator Ubuntu LTS.

Untuk mengetahui informasi selengkapnya tentang setiap image OS, lihat Detail sistem operasi dalam dokumentasi Compute Engine.

Buat cluster Anda

Setelah meninjau proses pembuatan cluster dan membuat keputusan awal untuk workload, buat cluster menggunakan salah satu opsi berikut: