Ce document vous aide à optimiser le débit utile, c'est-à-dire le taux de transfert des données utiles, pour vos charges de travail. Pour atteindre cette optimisation, nous avons sélectionné des recettes de débit utile reproductibles qui utilisent des frameworks et des modèles de machine learning (ML) courants. Pour examiner ces recettes, consultez l'organisation GitHub AI Hypercomputer. Les recettes de bon débit ont été testées sur des clusters créés à l'aide de Cluster Toolkit.
Pour garantir une fiabilité optimale des charges de travail et maximiser votre débit utile, vous pouvez également identifier de manière proactive les nœuds d'un cluster Google Kubernetes Engine (GKE) susceptibles de se dégrader dans les cinq prochaines heures. Cet avertissement précoce vous aide à éviter de planifier de nouvelles charges de travail sur des VM à risque, ce qui réduit le risque d'interruption de vos tâches. Pour en savoir plus, consultez Activer la prédiction de l'état des nœuds.
Avant de commencer
Avant d'utiliser les recettes de bon débit de ce document, suivez les étapes ci-dessous si vous ne l'avez pas déjà fait :
Recettes
Les recettes de bon débit reproductibles suivantes sont disponibles pour le pré-entraînement sur les clusters GKE :
| Nom de la recette | Accélérateur | Modèle | Framework | Type de charge de travail |
|---|---|---|---|---|
| Llama3.1 70B – A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Pré-entraînement sur GKE |
Étapes suivantes
Découvrez comment optimiser la mise en réseau des clusters à l'aide de NCCL/gIB.
Découvrez comment tester les clusters.