Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Formule di ottimizzazione del Goodput

Questo documento ti aiuta a ottimizzare il goodput, la velocità di trasferimento dei dati utili, per i tuoi carichi di lavoro. Per ottenere questa ottimizzazione, abbiamo selezionato ricette di goodput riproducibili che utilizzano framework e modelli di machine learning (ML) comuni. Per esaminare queste formule, consulta l'organizzazione GitHub di AI Hypercomputer. Le ricette di goodput sono state testate su cluster creati utilizzando Cluster Toolkit.

Per contribuire a garantire un'affidabilità ottimale del workload e massimizzare il goodput, puoi anche identificare in modo proattivo i nodi di un cluster Google Kubernetes Engine (GKE) che probabilmente subiranno un degrado nelle prossime cinque ore. Questo avviso tempestivo ti aiuta a evitare di pianificare nuovi carichi di lavoro su VM a rischio, riducendo così il rischio di interruzioni dei tuoi job. Per maggiori informazioni, vedi Attivare la previsione dell'integrità dei nodi.

Prima di iniziare

Prima di utilizzare le ricette per il goodput in questo documento, completa i seguenti passaggi, se non l'hai già fatto:

Ricette

Per il pre-addestramento sui cluster GKE sono disponibili le seguenti ricette di goodput riproducibili:

Nome della ricetta	Acceleratore	Modello	Framework	Tipo di workload
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	Pre-addestramento su GKE

Passaggi successivi

Scopri come ottimizzare il networking del cluster utilizzando NCCL/gIB.

Formule di ottimizzazione del Goodput Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prima di iniziare

Ricette

Passaggi successivi

Formule di ottimizzazione del Goodput