Formule di ottimizzazione del Goodput

Questo documento ti aiuta a ottimizzare il goodput, la velocità di trasferimento dei dati utili, per i tuoi workload. Per ottenere questa ottimizzazione, abbiamo selezionato ricette di goodput riproducibili che utilizzano framework e modelli di machine learning (ML) comuni. Per esaminare queste ricette, consulta l'organizzazione GitHub AI Hypercomputer. Le ricette di goodput sono state testate su cluster creati utilizzando Cluster Toolkit.

Per garantire un'affidabilità ottimale del workload e massimizzare il goodput, puoi anche identificare in modo proattivo i nodi in un cluster Google Kubernetes Engine (GKE) che probabilmente subiranno un degrado nelle cinque ore successive. Questo avviso tempestivo ti aiuta a evitare di pianificare nuovi workload su VM a rischio, riducendo così il rischio di interruzioni dei tuoi job. Per saperne di più, consulta Attivare la previsione dello stato dei nodi.

Prima di iniziare

Prima di utilizzare le ricette per il goodput in questo documento, completa i seguenti passaggi, se non l'hai già fatto:

  1. Scegli un acceleratore più adatto al tuo workload

  2. Scegliere un metodo di consumo in base all'acceleratore che preferisci

  3. Crea il tuo cluster

Ricette

Per il pre-addestramento sui cluster GKE sono disponibili le seguenti ricette di goodput riproducibili:

Nome della ricetta Acceleratore Modello Framework Tipo di workload
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo Pre-addestramento su GKE

Passaggi successivi