Cluster pelatihan Vertex AI adalah layanan dari Google Cloud yang dirancang untuk menyederhanakan dan mempercepat workload AI/ML terbesar dan paling kompleks. Platform ini dibuat khusus untuk mengatasi tantangan dalam pelatihan skala besar, seperti konfigurasi cluster yang kompleks, pengoptimalan framework, penanganan kegagalan hardware, dan mengintegrasikan serangkaian alat yang berbeda.
Proposisi nilai dan fitur utama
Layanan Pengembangan Model menawarkan beberapa manfaat inti:
Transparansi cluster dan UX Slurm open source: Cluster pelatihan Vertex AI menyediakan alat yang sudah dikenal dan fleksibel untuk meluncurkan dan mengelola tugas melalui pengalaman pengguna Slurm open source. Slurm adalah standar industri yang dikenal karena penjadwalan GPU yang dioptimalkan, toleransi kesalahan otomatis, dan peluncuran tugas paralel yang disederhanakan.
Penyiapan dan konfigurasi cluster otomatis: Cluster pelatihan Vertex AI mengotomatiskan penyiapan dan konfigurasi cluster, yang bertujuan untuk bertransisi dari pelatihan reservasi ke produksi dalam hitungan jam. Pengguna dapat membuat cluster menggunakan Google Cloud konsol (menggunakan arsitektur referensi atau konfigurasi langkah demi langkah) atau melalui panggilan API dengan file JSON.
Resep dan alur kerja ilmu data yang telah dikonfigurasi sebelumnya: Cluster pelatihan Vertex AI mencakup alat yang dibuat khusus dan resep pelatihan yang dioptimalkan untuk memulai pelatihan untuk kasus penggunaan populer seperti model Llama dan Gemma, yang mencakup pra-pelatihan, SFT (Supervised Fine-Tuning), dan Reinforcement Learning (RL). Resep ini telah dikonfigurasi sebelumnya untuk performa canggih (SOTA) di Google Cloud Infrastruktur, yang menunjukkan peningkatan performa yang signifikan.
Ketahanan hardware dan waktu aktif yang tinggi: Cluster pelatihan Vertex AI didesain dengan ketahanan hardware untuk meningkatkan waktu aktif cluster. Secara otomatis menyelesaikan masalah hardware, mendeteksi dan melakukan triase berbagai mode kegagalan (misalnya, pemeriksaan kebenaran, pemeriksaan kecepatan, error Error-Correcting Code (ECC), pemeriksaan NVIDIA Data Center GPU Manager (DCGM), kapasitas ruang disk), dan memicu tindakan perbaikan seperti memulai ulang, menginstal ulang, atau mengganti node yang rusak, dan melanjutkan dari titik pemeriksaan. Hal ini membantu mengurangi peningkatan biaya dan penundaan yang signifikan akibat gangguan tugas dan kegagalan hardware dalam pelatihan berskala besar.
Arsitektur dan komponen: Cluster pelatihan Vertex AI berjalan di infrastruktur Compute Engine yang mendukung GPU dan CPU. Layanan ini memanfaatkan orkestrator Slurm terkelola untuk men-deploy dan mengelola node komputasi, termasuk node login dan pekerja. Layanan ini terintegrasi dengan layanan Google Cloud lainnya seperti jaringan dan penyimpanan.
MLOps dan Kemampuan Observasi: Terintegrasi dengan alat Vertex ML Ops seperti Vertex AI Model Registry untuk pendaftaran, pelacakan, dan pembuatan versi alur kerja terlatih otomatis, serta Vertex AI Inference untuk deployment dengan penskalaan otomatis dan metrik otomatis. Cluster pelatihan juga memiliki integrasi observabilitas otomatis dengan Vertex AI TensorBoard untuk memvisualisasikan proses pelatihan, melacak metrik, dan mengidentifikasi masalah sejak awal.
Cluster pelatihan dapat dibuat,
diambil, dicantumkan, diperbarui, dan dihapus menggunakan
Vertex AI Training Clusters API. Setelah pembuatan cluster, pengguna dapat memvalidasi fungsinya dengan login ke node, menjalankan perintah Slurm dasar (misalnya, sinfo, sbatch), dan menjalankan beban kerja terkait GPU (misalnya, nvidia-smi). Alat Cluster Health Scanner (CHS) telah diinstal sebelumnya untuk menjalankan diagnostik seperti pengujian DCGM dan NCCL guna memverifikasi kesiapan cluster.
Cluster pelatihan Vertex AI menyediakan API untuk meluncurkan
tugas LLM bawaan menggunakan resep yang dioptimalkan untuk model seperti Llama
dan Gemma, yang mendukung pra-pelatihan dan pra-pelatihan berkelanjutan dari
checkpoint. Pemantauan tugas dapat dilakukan dengan login ke node login
dan memeriksa file output serta perintah Slurm seperti squeue.
Terminologi
Bagian ini memberikan definisi untuk istilah dan konsep utama yang penting untuk memahami dan menggunakan cluster pelatihan Vertex AI secara efektif. Istilah ini mencakup komponen layanan inti, pertimbangan arsitektur, teknologi penyimpanan terintegrasi, serta konsep machine learning (ML) dan MLOps mendasar yang mendasari lingkungan pelatihan Anda.
Konsep layanan inti
node
- Satu virtual machine (instance Compute Engine) dalam cluster. Dalam konteks Managed Training di cluster yang dicadangkan, node mengacu pada virtual machine (VM) individual yang berfungsi sebagai satu unit komputasi dalam cluster Anda. Anggap saja ini sebagai salah satu mesin pekerja khusus yang menjalankan sebagian tugas pelatihan keseluruhan Anda. Setiap node dilengkapi dengan resource tertentu seperti CPU, memori, dan akselerator (misalnya, GPU A3 atau A4), dan semuanya bekerja sama secara terkoordinasi untuk menangani tugas pelatihan terdistribusi berskala besar.
login node
- Node login adalah titik entri utama bagi pengguna untuk mengakses cluster, mengirimkan tugas, dan mengelola file. Untuk mengetahui informasi selengkapnya, lihat Apa itu komputasi berperforma tinggi?.
partisi
- Di Slurm, pengelompokan node logis, yang sering digunakan untuk memisahkan node dengan konfigurasi hardware yang berbeda.
resep
- Dalam konteks Managed Training, resep adalah paket komprehensif dan dapat digunakan kembali yang berisi semua yang diperlukan untuk menjalankan beban kerja pelatihan skala besar tertentu.
Cluster Slurm
- Kumpulan instance Compute Engine, yang dikelola oleh Slurm, yang mencakup node login dan beberapa node pekerja yang dikonfigurasi untuk menjalankan tugas pelatihan. Untuk mengetahui informasi selengkapnya, lihat Slurm workload manager.
worker node
- Node pekerja mengacu pada mesin atau instance komputasi individual dalam cluster yang bertanggung jawab untuk menjalankan tugas atau melakukan pekerjaan. Dalam sistem seperti cluster Kubernetes atau Ray, node adalah unit komputasi mendasar. Untuk mengetahui informasi selengkapnya, lihat Apa itu komputasi berperforma tinggi (HPC)?.
Arsitektur dan jaringan
jaringan VPC konsumen
- Jaringan VPC konsumen adalah Virtual Private Cloud (VPC) Google Cloud yang mengakses layanan yang dihosting di VPC lain (dikenal sebagai VPC produsen) secara pribadi. Untuk mengetahui informasi selengkapnya, lihat Private Service Connect.
Unit transmisi maksimum (MTU)
- Ukuran terbesar paket data yang dapat ditransmisikan oleh perangkat yang terhubung ke jaringan. Ukuran MTU yang lebih besar (frame jumbo) dapat meningkatkan performa jaringan untuk workload tertentu. Untuk mengetahui informasi selengkapnya, lihat Unit transmisi maksimum.
akses layanan pribadi
- Akses layanan pribadi adalah koneksi pribadi antara jaringan Virtual Private Cloud (VPC) Anda dan jaringan yang dimiliki oleh Google atau penyedia layanan pihak ketiga. Dengan demikian, instance mesin virtual (VM) di jaringan VPC Anda dapat berkomunikasi dengan layanan ini menggunakan alamat IP internal, sehingga terhindar dari eksposur ke internet publik. Untuk mengetahui informasi selengkapnya, lihat Akses layanan pribadi.
Peering Jaringan VPC
- Koneksi jaringan yang memungkinkan dua jaringan VPC berkomunikasi secara pribadi. Dalam konteks Managed Training di cluster yang dicadangkan, Peering Jaringan VPC adalah komponen penting untuk mengintegrasikan layanan penting. Misalnya, metode ini diperlukan untuk menghubungkan VPC cluster Anda ke instance Filestore, yang menyediakan direktori `/home` bersama yang diperlukan untuk semua node di cluster Anda.
zona
- Area deployment tertentu dalam region Google Cloud. Dalam konteks Managed Training di cluster yang dicadangkan, untuk mendapatkan performa terbaik, semua komponen layanan (instance cluster, Filestore, dan Managed Lustre) harus dibuat di zona yang sama.
Teknologi penyimpanan terintegrasi
Cloud Storage Fuse
- Adaptor FUSE open source yang memungkinkan Anda memasang bucket Cloud Storage sebagai sistem file di sistem Linux atau macOS. Untuk mengetahui informasi selengkapnya, lihat Cloud Storage Fuse.
Filestore
- Layanan penyimpanan file berperforma tinggi dan terkelola sepenuhnya dari Google Cloud, yang sering digunakan untuk aplikasi yang memerlukan sistem file bersama. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Filestore.
Managed Lustre
- Sistem file terdistribusi paralel yang dirancang untuk komputasi berperforma tinggi. Managed Lustre Google Cloud menyediakan sistem file throughput tinggi untuk workload yang menuntut. Untuk mengetahui informasi selengkapnya, lihat Ringkasan Managed Lustre.
tingkatan performa
- Setelan konfigurasi untuk instance Managed Lustre yang menentukan kecepatan throughput-nya (dalam MBps per TiB) dan memengaruhi kapasitas minimum dan maksimumnya.
Konsep utama ML dan MLOps
titik pemeriksaan
- Data yang merekam status parameter model selama pelatihan atau setelah pelatihan selesai. Misalnya, selama pelatihan, Anda dapat: 1. Menghentikan pelatihan, mungkin secara sengaja atau mungkin sebagai akibat dari error tertentu. 2. Ambil checkpoint. 3. Kemudian, muat ulang titik pemeriksaan, mungkin di hardware yang berbeda. 4. Mulai ulang pelatihan. Dalam Gemini, titik pemeriksaan mengacu pada versi tertentu dari model Gemini yang dilatih pada set data tertentu.
Penyesuaian yang diawasi (SFT)
- Teknik machine learning yang melatih lebih lanjut model terlatih dengan set data berlabel yang lebih kecil untuk mengadaptasinya ke tugas tertentu.
Inferensi Vertex AI
- Layanan Vertex AI yang memungkinkan Anda menggunakan model machine learning (ML) terlatih untuk membuat inferensi dari data baru yang tidak terlihat. Vertex AI menyediakan layanan untuk men-deploy model untuk inferensi. Untuk mengetahui informasi selengkapnya, lihat Mendapatkan inferensi dari model terlatih kustom.
Vertex AI Model Registry
- Vertex AI Model Registry adalah repositori pusat tempat Anda dapat mengelola siklus proses model ML. Dari Vertex AI Model Registry, Anda mendapatkan ringkasan model sehingga dapat mengatur, melacak, dan melatih versi baru dengan lebih baik. Jika memiliki versi model yang ingin di-deploy, Anda dapat menetapkannya ke endpoint langsung dari registry, atau dengan menggunakan alias, Anda dapat men-deploy model ke endpoint. Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry.
Vertex AI TensorBoard
- Vertex AI TensorBoard adalah layanan terkelola dan skalabel di Google Cloud yang memungkinkan data scientist dan engineer ML memvisualisasikan eksperimen machine learning mereka, men-debug pelatihan model, dan melacak metrik performa menggunakan antarmuka TensorBoard open source yang sudah dikenal. Layanan ini terintegrasi dengan lancar dengan Vertex AI Training dan layanan lainnya, menyediakan penyimpanan persisten untuk data eksperimen dan memungkinkan analisis kolaboratif pengembangan model. Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI TensorBoard.