Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan pembuatan cluster

Dokumen ini merangkum cara membuat cluster untuk workload AI Anda di AI Hypercomputer. Secara khusus, dokumen ini memandu Anda melalui proses dan pilihan yang harus dibuat saat memulai cluster.

Sebelum memulai

Anda harus memiliki workload yang sudah ada yang ingin Anda dukung.
Anda harus memahami terminologi yang umum digunakan untuk beban kerja AI dan ML, seperti pelatihan dan inferensi model.

Mulai cluster

Memulai cluster mencakup langkah-langkah berikut:

Tentukan beban kerja Anda dan pilih jenis mesin
Memilih opsi pemakaian dan mendapatkan kapasitas
Memilih opsi deployment
Pilih orchestrator
Pilih sistem operasi dan image cluster
Buat cluster Anda
Menyediakan penyimpanan untuk workload Anda

Tentukan workload Anda dan pilih jenis mesin

Pilih jenis mesin untuk workload AI Anda. AI Hypercomputer mendukung pembuatan cluster menggunakan seri mesin A4X Max, A4X, A4, dan A3. Pertimbangkan rekomendasi berikut untuk penggunaan mesin:

Untuk pelatihan dan inferensi model dasar: A4X Max atau A4X

Perhatian: Perjanjian Tingkat Layanan (SLA) Compute Engine tidak berlaku untuk seri mesin A4X Max dan A4X.
Untuk pelatihan, penyesuaian, dan inferensi model besar: A4 atau A3 Ultra
Untuk inferensi dan fine-tuning model mainstream: A3 Mega atau A3 High (8 GPU)
Untuk inferensi penayangan: A3 Edge

Untuk mengetahui informasi mendetail tentang setiap seri mesin, lihat Jenis mesin GPU. Untuk mengetahui informasi mendetail tentang rekomendasi workload untuk setiap mesin, lihat Konfigurasi yang direkomendasikan.

Memilih opsi pemakaian dan mendapatkan kapasitas

Pilih opsi pemakaian untuk resource GPU Anda berdasarkan ketersediaan workload dan jenis mesin yang dipilih. Misalnya, untuk menggunakan jenis mesin A4X Max atau A4X, Anda harus memesan kapasitas untuk tanggal dan waktu tertentu menggunakan model konsumsi pemesanan untuk masa mendatang. Opsi berikut merangkum model pemakaian:

Reservasi mendatang: Tersedia untuk jenis mesin A4X Max, A4X, A4, dan A3 Ultra, dengan alokasi resource padat dan diskon hingga 53% untuk vCPU dan GPU. Reservasi mendatang ideal untuk workload yang memerlukan stabilitas dalam jangka waktu yang lama, seperti pra-pelatihan model dasar atau inferensi model dasar multi-host. Untuk menggunakan opsi pemakaian ini, Anda harus meminta kapasitas melalui tim akun Anda untuk tanggal dan waktu mulai pada masa mendatang.
Reservasi mendatang dalam mode kalender: Tersedia untuk jenis mesin A4, A3 Ultra, A3 Mega, dan A3 High (khusus VM 8 GPU), dengan alokasi resource padat dan diskon hingga 53% untuk vCPU dan GPU. Pemesanan untuk masa mendatang dalam mode kalender membantu Anda memesan resource untuk workload yang berjalan hingga 90 hari dan memerlukan stabilitas, seperti model pra-pelatihan atau fine-tuning. Namun, untuk menggunakan opsi penggunaan ini, Anda harus membuat permintaan reservasi untuk mencadangkan sumber daya pada tanggal dan waktu di masa mendatang, dan Google Cloud harus menyetujui permintaan Anda.
Mulai fleksibel: Tersedia untuk semua jenis mesin GPU, kecuali A4X Max dan A4X. Dengan mulai fleksibel, Anda dapat membuat cluster padat jangka pendek yang bertahan hingga tujuh hari dan memiliki diskon hingga 53% untuk vCPU dan GPU untuk jenis mesin A2 dan yang lebih baru. Anda dapat membuat cluster mulai fleksibel secara langsung melalui Compute Engine, Cluster Director, Cluster Toolkit, atau GKE. Namun, cluster tidak langsung tersedia; Google membuatnya segera setelah resource tersedia.
Spot: Tersedia untuk semua jenis mesin GPU, kecuali A4X Max dan A4X. Spot VM memungkinkan Anda membuat resource komputasi secara langsung berdasarkan ketersediaan; namun, Compute Engine dapat melakukan preempt instance virtual machine (VM) kapan saja. Spot VM diberi harga dengan diskon terbesar yang tersedia di Compute Engine (antara 61% dan 90%).

Untuk mengetahui informasi selengkapnya tentang opsi pemakaian, lihat Perbandingan opsi pemakaian.

Memilih opsi deployment

Bergantung pada tingkat kontrol yang Anda butuhkan atas deployment cluster, pilih antara deployment yang dikelola sepenuhnya atau deployment yang kurang dikelola yang memberi Anda lebih banyak kontrol atas infrastruktur.

Dikelola secara intensif

Jika Anda ingin Google men-deploy dan menyiapkan infrastruktur Anda, gunakan Cluster Director, Cluster Toolkit, atau GKE.

Cluster Director: produk yang mengotomatiskan penyiapan dan konfigurasi cluster yang kompleks, membantu Anda mengonfigurasi resource komputasi, jaringan, dan penyimpanan untuk cluster guna memaksimalkan performa dan meminimalkan waktu henti.Google Cloud Cluster Director dirancang untuk administrator IT dan peneliti AI yang ingin menghindari overhead pengelolaan cluster, dan berfokus pada menjalankan workload mereka.
Cluster Toolkit: alat open source yang ditawarkan oleh Google yang menyederhanakan konfigurasi dan deployment cluster untuk GKE atau Compute Engine. Anda menggunakan blueprint yang telah ditentukan sebelumnya untuk men-deploy konfigurasi umum, seperti jenis mesin A4 dengan Slurm. Anda dapat mengubah cetak biru untuk menyesuaikan deployment dan stack software Anda.
GKE: layanan Kubernetes terkelola dan platform orkestrasi container open source. GKE menawarkan fitur seperti penskalaan otomatis dan ketersediaan tinggi. Layanan ini juga dapat mengorkestrasi aplikasi yang di-container, mendukung hardware khusus, dan kompatibel dengan ekosistem Google Cloud, sehingga cocok untuk men-deploy dan mengelola workload AI atau ML. Anda dapat men-deploy cluster GKE menggunakan GKE secara langsung atau menggunakan Cluster Toolkit. Anda dapat memilih antara mode GKE Standard atau Autopilot.

Lebih sedikit dikelola, lebih banyak kontrol

Untuk kontrol yang lebih terperinci atas cluster dan software yang diinstal di dalamnya, buat cluster Compute Engine menggunakan grup instance terkelola (MIG) Compute Engine atau dengan membuat instance secara massal. Kemudian, instal secara manual software utama yang Anda butuhkan di instance.

Memilih orchestrator

Pengelola mengotomatiskan pengelolaan cluster Anda. Dengan orkestrator, Anda tidak perlu mengelola setiap instance komputasi di cluster. Orchestrator, seperti Slurm atau GKE, menangani tugas seperti pengantrean tugas, alokasi resource, penskalaan otomatis (dalam kasus GKE), dan tugas pengelolaan cluster sehari-hari lainnya.

Slurm: Slurm adalah pengelola open source yang umum digunakan untuk workload HPC, AI, atau ML. Untuk menggunakan Slurm, Anda dapat menggunakan Cluster Toolkit (yang menawarkan blueprint cluster yang otomatis menginstal Slurm di cluster Anda), atau Anda dapat menginstal Slurm secara manual di cluster Compute Engine.
GKE: GKE adalah layanan terkelola yang dibangun di atas Kubernetes, platform orkestrasi container open source. GKE sangat ideal untuk men-deploy dan mengelola workload AI atau ML, karena kemampuannya untuk mengorkestrasi aplikasi dalam container, dukungan untuk hardware khusus, dan posisinya dalam ekosistem Google Cloud. Anda dapat men-deploy cluster GKE menggunakan GKE secara langsung atau menggunakan Cluster Toolkit.
Bawa orkestrator Anda sendiri: Jika ingin menggunakan orkestrator lain, Anda harus menggunakannya di cluster Compute Engine. Namun, membuat cluster Compute Engine adalah opsi dengan tingkat pengelolaan paling rendah yang ditawarkan diGoogle Cloud. Pilihan ini berarti Anda bertanggung jawab untuk menyiapkan, memelihara, dan mengupdate instance Anda.

Pilih image sistem operasi

Bergantung pada apakah Anda menggunakan GKE atau Compute Engine, pilih image yang berisi sistem operasi yang Anda pilih, seperti Container-Optimized OS untuk cluster GKE, atau image OS akselerator untuk cluster Compute Engine. Selain itu, Anda juga dapat memilih image Deep Learning Software Layer (DSLS) untuk container Anda.

Untuk mengetahui informasi mendetail, tinjau gambar AI Hypercomputer.

Image untuk cluster GKE

Untuk membuat cluster GKE, sebaiknya gunakan image OS container default untuk mode Standard dan Autopilot. Namun, dalam mode Standar, Anda juga dapat memilih untuk menggunakan image lain yang tersedia, seperti Ubuntu.

Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster, Anda hanya dapat menggunakan image OS container, karena image ini adalah image yang terintegrasi dalam blueprint cluster. Untuk mengetahui informasi selengkapnya tentang setiap image node, lihat Image node dalam dokumentasi GKE.

GKE juga menawarkan image container Deep Learning Software Layer (DLSL) yang menginstal paket seperti NVIDIA CUDA dan NCCL, serta framework ML seperti PyTorch, sehingga menyediakan lingkungan siap pakai untuk workload deep learning. Image container DLSL yang telah dibuat sebelumnya ini diuji dan diverifikasi agar berfungsi dengan lancar di cluster GKE.

OS image untuk cluster Compute Engine

AI Hypercomputer menawarkan image yang dioptimalkan untuk menjalankan workload AI dan ML menggunakan Compute Engine. Pilih OS yang paling Anda kuasai:

Akselerator Rocky Linux 9
Akselerator Rocky Linux 8
Akselerator Ubuntu 24.04 LTS
Akselerator Ubuntu 22.04 LTS

Jika Anda menggunakan Cluster Toolkit, image akselerator ini sudah digabungkan ke dalam cetak biru Cluster Toolkit, karena Cluster Toolkit membuat image kustom yang memperluas image OS Akselerator Ubuntu LTS.

Untuk mengetahui informasi selengkapnya tentang setiap image OS, lihat Detail sistem operasi di dokumentasi Compute Engine.

Buat cluster Anda

Setelah meninjau proses pembuatan cluster dan membuat keputusan awal untuk workload, buat cluster menggunakan salah satu opsi berikut:

Buat cluster GKE:
- Membuat cluster GKE menggunakan Cluster Toolkit
- Membuat cluster GKE kustom
Buat cluster Slurm:
- Membuat cluster yang dikelola sepenuhnya menggunakan Cluster Director
- Membuat cluster yang dikelola sendiri menggunakan Cluster Toolkit
Buat cluster dengan Compute Engine:

Menyediakan penyimpanan untuk workload Anda

Pilih layanan penyimpanan yang akan disediakan, berdasarkan persyaratan performa, biaya, dan arsitektur penyimpanan.