Dokumen ini membantu Anda mengoptimalkan goodput, yaitu kecepatan transfer data yang berguna, untuk workload Anda. Untuk mencapai pengoptimalan ini, kami telah mengumpulkan resep goodput yang dapat direproduksi dan menggunakan framework dan model machine learning (ML) umum. Untuk meninjau resep ini, lihat organisasi GitHub AI Hypercomputer. Resep goodput diuji pada cluster yang dibuat menggunakan Cluster Toolkit.
Untuk membantu memastikan keandalan beban kerja yang optimal dan memaksimalkan goodput, Anda juga dapat mengidentifikasi node secara proaktif di cluster Google Kubernetes Engine (GKE) yang kemungkinan akan mengalami penurunan performa dalam lima jam ke depan. Peringatan dini ini membantu Anda menghindari penjadwalan workload baru di VM yang berisiko, sehingga mengurangi risiko gangguan pada tugas Anda. Untuk mengetahui informasi selengkapnya, lihat bagian Mengaktifkan prediksi kondisi node.
Sebelum memulai
Sebelum Anda menggunakan resep goodput dalam dokumen ini, selesaikan langkah-langkah berikut jika Anda belum melakukannya:
Pilih akselerator yang paling sesuai dengan beban kerja Anda
Pilih metode penggunaan berdasarkan akselerator pilihan Anda
Resep
Resep goodput yang dapat direproduksi berikut tersedia untuk pra-pelatihan di cluster GKE:
| Nama resep | Akselerator | Model | Framework | Jenis workload |
|---|---|---|---|---|
| Llama3.1 70B - A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Pelatihan awal di GKE |
Langkah berikutnya
Pelajari cara mengoptimalkan jaringan cluster menggunakan NCCL/gIB.
Pelajari cara Menguji cluster.