Goodput-Optimierungsschemas

In diesem Dokument erfahren Sie, wie Sie den Goodput, die Rate der übertragenen Nutzdaten, für Ihre Arbeitslasten optimieren können. Zur Optimierung haben wir reproduzierbare Rezepte für den Durchsatz zusammengestellt, die gängige Frameworks und Modelle für maschinelles Lernen (ML) verwenden. Informationen zu diesen Empfehlungen finden Sie in der GitHub-Organisation für AI Hypercomputer. Die Goodput-Rezepte wurden auf Clustern getestet, die mit dem Cluster-Toolkit erstellt wurden.

Um die Zuverlässigkeit von Arbeitslasten zu optimieren und den Durchsatz zu maximieren, können Sie auch proaktiv Knoten in einem Google Kubernetes Engine-Cluster (GKE) identifizieren, bei denen in den nächsten fünf Stunden wahrscheinlich eine Leistungsminderung auftritt. Diese Vorwarnung hilft Ihnen, neue Arbeitslasten auf VMs mit hohem Risiko zu vermeiden und so das Risiko von Unterbrechungen Ihrer Jobs zu verringern. Weitere Informationen finden Sie unter Knoten-Systemdiagnosevorhersage aktivieren.

Hinweise

Bevor Sie die Rezepte für den Durchsatz in diesem Dokument verwenden, führen Sie die folgenden Schritte aus, sofern Sie dies noch nicht getan haben:

  1. Wählen Sie einen Accelerator aus, der am besten zu Ihrer Arbeitslast passt.

  2. Nutzungsmethode basierend auf dem ausgewählten Accelerator auswählen

  3. Cluster erstellen

Rezepte

Die folgenden reproduzierbaren Goodput-Rezepturen sind für das Vortraining in GKE-Clustern verfügbar:

Name des Rezepts Beschleuniger Modell Framework Arbeitslasttyp
Llama3.1 70B – A3 Mega A3 Mega Llama3.1 70B NeMo Vortraining in GKE

Nächste Schritte