Questo documento ti aiuta a ottimizzare il goodput, la velocità di trasferimento dei dati utili, per i tuoi carichi di lavoro. Per ottenere questa ottimizzazione, abbiamo selezionato ricette di goodput riproducibili che utilizzano framework e modelli di machine learning (ML) comuni. Per esaminare queste formule, consulta l'organizzazione GitHub di AI Hypercomputer. Le ricette di goodput sono state testate su cluster creati utilizzando Cluster Toolkit.
Per garantire un'affidabilità ottimale del carico di lavoro e massimizzare il goodput, puoi anche identificare in modo proattivo i nodi di un cluster Google Kubernetes Engine (GKE) che probabilmente subiranno un degrado nelle prossime cinque ore. Questo avviso tempestivo ti aiuta a evitare di pianificare nuovi carichi di lavoro su VM a rischio, riducendo così il rischio di interruzioni dei tuoi job. Per maggiori informazioni, vedi Attivare la previsione dell'integrità dei nodi.
Prima di iniziare
Prima di utilizzare le ricette per il goodput in questo documento, completa i seguenti passaggi, se non l'hai già fatto:
Ricette
Per il pre-addestramento sui cluster GKE sono disponibili le seguenti ricette di goodput riproducibili:
| Nome della ricetta | Acceleratore | Modello | Framework | Tipo di workload |
|---|---|---|---|---|
| Llama3.1 70B - A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Pre-addestramento su GKE |
Passaggi successivi
Scopri come ottimizzare il networking dei cluster utilizzando NCCL/gIB.
Scopri come Testare i cluster.