Resep pengoptimalan goodput

Dokumen ini membantu Anda mengoptimalkan goodput, yaitu kecepatan transfer data yang berguna, untuk workload Anda. Untuk mencapai pengoptimalan ini, kami telah mengumpulkan resep goodput yang dapat direproduksi dan menggunakan framework dan model machine learning (ML) umum. Untuk meninjau resep ini, lihat organisasi GitHub AI Hypercomputer. Resep goodput diuji pada cluster yang dibuat menggunakan Cluster Toolkit.

Untuk membantu memastikan keandalan beban kerja yang optimal dan memaksimalkan goodput, Anda juga dapat mengidentifikasi node secara proaktif di cluster Google Kubernetes Engine (GKE) yang kemungkinan akan mengalami penurunan performa dalam lima jam ke depan. Peringatan dini ini membantu Anda menghindari penjadwalan workload baru di VM yang berisiko, sehingga mengurangi risiko gangguan pada tugas Anda. Untuk mengetahui informasi selengkapnya, lihat bagian Mengaktifkan prediksi kondisi node.

Sebelum memulai

Sebelum Anda menggunakan resep goodput dalam dokumen ini, selesaikan langkah-langkah berikut jika Anda belum melakukannya:

  1. Pilih akselerator yang paling sesuai dengan beban kerja Anda

  2. Pilih metode penggunaan berdasarkan akselerator pilihan Anda

  3. Buat cluster Anda

Resep

Resep goodput yang dapat direproduksi berikut tersedia untuk pra-pelatihan di cluster GKE:

Nama resep Akselerator Model Framework Jenis workload
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo Pelatihan awal di GKE

Langkah berikutnya