Resource komputasi

Jika Anda tertarik dengan cluster pelatihan Vertex AI, hubungi perwakilan penjualan Anda untuk mendapatkan akses.

Cluster pelatihan Vertex AI mendukung berbagai jenis mesin untuk mengakomodasi berbagai workload. Anda dapat memilih dari opsi berikut saat mengonfigurasi node pool cluster:

  • a4-highgpu-8g
  • a4x-highgpu-4g
  • a3-ultragpu-8g
  • a3-megagpu-8g
  • Kelompok CPU n2

Jenis mesin A4X

Cluster pelatihan Vertex AI mendukung jenis mesin yang dioptimalkan untuk akselerator A4X (a4x-highgpu-4g), platform exascale berdasarkan arsitektur skala rak NVIDIA GB200 NVL72.

Perbandingan arsitektur

Tabel berikut menguraikan perbedaan hardware mendasar antara keluarga A4X dan keluarga lainnya yang dioptimalkan untuk akselerator.

Fitur A4X (a4x-highgpu-4g) A3 / A4H
Arsitektur CPU ARM X86
Jumlah GPU 4 GPU per node 8 GPU per node
Jenis Reservasi Mode semua kapasitas Mode Terkelola
Kebijakan Penempatan Ketat (Ringkas) Fleksibel

Pedoman khusus A4X

  • Jumlah VM kumpulan node A4X harus kelipatan 18 (misalnya, 18, 36, 54). Hal ini diperlukan karena kapasitas A4X disediakan dalam blok 18 node tetap yang tidak dapat dibagikan yang disebut domain NVLink. Domain ini terikat oleh Kebijakan Penempatan Ringkas yang ketat, dan setiap blok yang dialokasikan sebagian tidak dapat digunakan oleh cluster lain.
  • Karena arsitektur berbasis ARM pada node A4X, Anda harus melakukan dua perubahan utama pada workload pelatihan:
    • Gunakan image yang Kompatibel dengan ARM: Semua tugas pelatihan harus menggunakan image container yang dibuat untuk arsitektur ARM.
    • Menyesuaikan untuk 4 GPU: Logika pelatihan terdistribusi Anda harus diupdate untuk mengenali dan menggunakan 4 GPU yang tersedia di setiap node A4X dengan benar.
  • Proses dan waktu henti pelaporan kesalahan Host Saat Anda melaporkan host sebagai rusak, perhatikan proses pemulihan berikut:
    • Tidak ada kapasitas standby: Sistem tidak menggunakan pool pengganti standby untuk penggantian node instan.
    • Pemulihan berbasis perbaikan: Node tetap tidak tersedia hingga host fisik yang mendasarinya diperbaiki.
    • Waktu henti yang lebih lama: Proses perbaikan ini biasanya memerlukan waktu 3 hingga 14 hari.

Penyediaan kapasitas

Memilih model penyediaan yang tepat sangat penting untuk menyeimbangkan biaya, kecepatan, dan ketersediaan resource. Lihat opsi penyediaan berikut:

  • RESERVATION: Mengalokasikan node dari reservasi Compute Engine tertentu yang telah Anda buat sebelumnya. Model ini memastikan kapasitas dan merupakan pilihan yang direkomendasikan untuk resource dengan permintaan tinggi.

  • FLEX_START: Menggunakan Dynamic Workload Scheduler untuk mengantrekan tugas Anda. Tugas dimulai secara otomatis segera setelah resource komputasi yang diminta tersedia, sehingga menawarkan waktu mulai yang fleksibel tanpa memerlukan reservasi.

  • SPOT: Menyediakan node pool menggunakan Spot VM. Opsi ini adalah opsi yang paling hemat biaya, tetapi hanya boleh digunakan untuk workload yang fault-tolerant dan dapat menangani gangguan, karena VM dapat di-preempt kapan saja.

  • ON_DEMAND: Ini adalah opsi default untuk node pool khusus CPU dan paling cocok untuk jenis mesin yang tidak langka. Layanan ini menyediakan instance VM standar dengan harga bayar sesuai penggunaan yang dapat diprediksi.

Gunakan panduan berikut untuk membuat pilihan:

  • Untuk resource GPU dengan permintaan tinggi (seperti A3 dan A4): Model RESERVATION sangat direkomendasikan. Hal ini memastikan Anda memiliki akses khusus ke kapasitas yang Anda butuhkan untuk tugas pelatihan penting.

  • Untuk workload yang bersifat burst atau fleksibel: Pertimbangkan FLEX_START atau SPOT. FLEX_START mengantrekan tugas Anda hingga resource tersedia, sementara SPOT menawarkan penghematan biaya yang signifikan untuk tugas fault-tolerant yang dapat menangani penghentian sementara.

  • Untuk jenis mesin yang banyak: Model ON_DEMAND adalah pilihan yang lebih disukai. Gunakan untuk jenis mesin yang tidak langka dan ketersediaan langsungnya tidak menjadi masalah.

Menggunakan reservasi bersama (opsional)

Jika Anda ingin menggunakan reservasi bersama, bukan reservasi lokal, ada langkah-langkah tambahan yang harus dilakukan sebelum Anda dapat membuat cluster.

Sebelum menggunakan pemesanan bersama dengan cluster pelatihan Vertex AI, pastikan pemesanan bersama berfungsi dengan membuat VM secara manual yang menggunakan pemesanan bersama. Jika pembuatan VM ini berhasil, lanjutkan ke langkah berikutnya. Dalam konfigurasi pembuatan cluster, gunakan nama reservasi dalam format berikut: projects/RESERVATION_HOST_PROJECT_ID/zones/RESERVATION_ZONE/reservations/RESERVATION_NAME.

Langkah berikutnya

Setelah memilih opsi komputasi dan penyediaan untuk cluster pelatihan, Anda siap membuat cluster dan menjalankan workload di cluster tersebut.

  • Buat pemesanan Compute Engine: Model RESERVATION digunakan untuk mengalokasikan resource yang sangat diminati seperti GPU. Pelajari cara membuat reservasi baru di Compute Engine untuk mendapatkan akses khusus ke resource yang Anda perlukan.
  • Buat cluster pelatihan Anda: Terapkan konfigurasi yang telah Anda pelajari dengan mengikuti panduan langkah demi langkah untuk membuat cluster pelatihan persisten pertama menggunakan Vertex AI API atau gcloud.
  • Kirimkan tugas pelatihan ke cluster Anda: Setelah cluster Anda aktif, langkah berikutnya adalah menjalankan workload. Kirimkan CustomJob yang menargetkan cluster persisten untuk dieksekusi.
  • Sesuaikan kode Anda untuk pelatihan terdistribusi: Untuk memanfaatkan cluster multi-node sepenuhnya, sesuaikan kode pelatihan Anda untuk lingkungan terdistribusi.