Formule di ottimizzazione del Goodput

Questo documento ti aiuta a ottimizzare il goodput, la velocità di trasferimento dei dati utili, per i tuoi carichi di lavoro. Per ottenere questa ottimizzazione, abbiamo selezionato ricette di goodput riproducibili che utilizzano framework e modelli di machine learning (ML) comuni. Per esaminare queste formule, consulta l'organizzazione GitHub di AI Hypercomputer. Le ricette di goodput sono state testate su cluster creati utilizzando Cluster Toolkit.

Per garantire un'affidabilità ottimale del carico di lavoro e massimizzare il goodput, puoi anche identificare in modo proattivo i nodi di un cluster Google Kubernetes Engine (GKE) che probabilmente subiranno un degrado nelle prossime cinque ore. Questo avviso tempestivo ti aiuta a evitare di pianificare nuovi carichi di lavoro su VM a rischio, riducendo così il rischio di interruzioni dei tuoi job. Per maggiori informazioni, vedi Attivare la previsione dell'integrità dei nodi.

Prima di iniziare

Prima di utilizzare le ricette per il goodput in questo documento, completa i seguenti passaggi, se non l'hai già fatto:

  1. Scegli un acceleratore più adatto al tuo workload

  2. Scegliere un metodo di consumo in base all'acceleratore che preferisci

  3. Crea il tuo cluster

Ricette

Per il pre-addestramento sui cluster GKE sono disponibili le seguenti ricette di goodput riproducibili:

Nome della ricetta Acceleratore Modello Framework Tipo di workload
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo Pre-addestramento su GKE

Passaggi successivi