In diesem Dokument erfahren Sie, wie Sie den Goodput, die Rate der übertragenen Nutzdaten, für Ihre Arbeitslasten optimieren können. Zur Optimierung haben wir reproduzierbare Rezepte für den Durchsatz zusammengestellt, die gängige Frameworks und Modelle für maschinelles Lernen (ML) verwenden. Informationen zu diesen Empfehlungen finden Sie in der GitHub-Organisation für AI Hypercomputer. Die Goodput-Rezepte wurden auf Clustern getestet, die mit dem Cluster-Toolkit erstellt wurden.
Um die Zuverlässigkeit von Arbeitslasten zu optimieren und den Durchsatz zu maximieren, können Sie auch proaktiv Knoten in einem Google Kubernetes Engine-Cluster (GKE) identifizieren, bei denen in den nächsten fünf Stunden wahrscheinlich eine Leistungsminderung auftritt. Diese Vorwarnung hilft Ihnen, neue Arbeitslasten auf VMs mit hohem Risiko zu vermeiden und so das Risiko von Unterbrechungen Ihrer Jobs zu verringern. Weitere Informationen finden Sie unter Knoten-Systemdiagnosevorhersage aktivieren.
Hinweise
Bevor Sie die Rezepte für den Durchsatz in diesem Dokument verwenden, führen Sie die folgenden Schritte aus, sofern Sie dies noch nicht getan haben:
Wählen Sie einen Accelerator aus, der am besten zu Ihrer Arbeitslast passt.
Nutzungsmethode basierend auf dem ausgewählten Accelerator auswählen
Rezepte
Die folgenden reproduzierbaren Goodput-Rezepturen sind für das Vortraining in GKE-Clustern verfügbar:
| Name des Rezepts | Beschleuniger | Modell | Framework | Arbeitslasttyp |
|---|---|---|---|---|
| Llama3.1 70B – A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Vortraining in GKE |