Goodput-Optimierungsschemas

In diesem Dokument erfahren Sie, wie Sie den Goodput, die Rate der übertragenen Nutzdaten, für Ihre Arbeitslasten optimieren. Dazu haben wir reproduzierbare Goodput-Rezepte zusammengestellt, die gängige Frameworks und Modelle für maschinelles Lernen (ML) verwenden. Diese Rezepte finden Sie in der GitHub-Organisation für AI Hypercomputer. Die Goodput-Rezepte wurden auf Clustern getestet, die mit dem Cluster-Toolkit erstellt wurden.

Um eine optimale Zuverlässigkeit der Arbeitslasten zu gewährleisten und den Durchsatz zu maximieren, können Sie auch proaktiv Knoten in einem Google Kubernetes Engine-Cluster (GKE) identifizieren, bei denen in den nächsten fünf Stunden wahrscheinlich eine Leistungsminderung auftritt. Diese Vorwarnung hilft Ihnen, das Planen neuer Arbeitslasten auf gefährdeten VMs zu vermeiden und so das Risiko von Unterbrechungen Ihrer Jobs zu verringern. Weitere Informationen finden Sie unter Knotenstatusvorhersage aktivieren.

Hinweis

Bevor Sie die Rezepte für den effektiven Durchsatz in diesem Dokument verwenden, führen Sie die folgenden Schritte aus, falls Sie das noch nicht getan haben:

  1. Accelerator auswählen, der am besten für Ihre Arbeitslast geeignet ist

  2. Nutzungsmethode basierend auf dem ausgewählten Accelerator auswählen

  3. Cluster erstellen

Rezepte

Die folgenden reproduzierbaren Goodput-Rezepturen sind für das Vortraining in GKE-Clustern verfügbar:

Name des Rezepts Beschleuniger Modell Framework Arbeitslasttyp
Llama3.1 70B – A3 Mega A3 Mega Llama3.1 70B NeMo Vortraining in GKE

Nächste Schritte