In diesem Dokument erfahren Sie, wie Sie den Goodput, die Rate der übertragenen Nutzdaten, für Ihre Arbeitslasten optimieren. Dazu haben wir reproduzierbare Goodput-Rezepte zusammengestellt, die gängige Frameworks und Modelle für maschinelles Lernen (ML) verwenden. Diese Rezepte finden Sie in der GitHub-Organisation für AI Hypercomputer. Die Goodput-Rezepte wurden auf Clustern getestet, die mit dem Cluster-Toolkit erstellt wurden.
Um eine optimale Zuverlässigkeit der Arbeitslasten zu gewährleisten und den Durchsatz zu maximieren, können Sie auch proaktiv Knoten in einem Google Kubernetes Engine-Cluster (GKE) identifizieren, bei denen in den nächsten fünf Stunden wahrscheinlich eine Leistungsminderung auftritt. Diese Vorwarnung hilft Ihnen, das Planen neuer Arbeitslasten auf gefährdeten VMs zu vermeiden und so das Risiko von Unterbrechungen Ihrer Jobs zu verringern. Weitere Informationen finden Sie unter Knotenstatusvorhersage aktivieren.
Hinweis
Bevor Sie die Rezepte für den effektiven Durchsatz in diesem Dokument verwenden, führen Sie die folgenden Schritte aus, falls Sie das noch nicht getan haben:
Accelerator auswählen, der am besten für Ihre Arbeitslast geeignet ist
Nutzungsmethode basierend auf dem ausgewählten Accelerator auswählen
Rezepte
Die folgenden reproduzierbaren Goodput-Rezepturen sind für das Vortraining in GKE-Clustern verfügbar:
| Name des Rezepts | Beschleuniger | Modell | Framework | Arbeitslasttyp |
|---|---|---|---|---|
| Llama3.1 70B – A3 Mega | A3 Mega | Llama3.1 70B | NeMo | Vortraining in GKE |