Google verwendet KI-Technologie, um Inhalte in Ihre bevorzugte Sprache zu übersetzen. KI-Übersetzungen können Fehler enthalten.

Goodput-Optimierungsschemas

In diesem Dokument erfahren Sie, wie Sie den Goodput, die Rate der übertragenen Nutzdaten, für Ihre Arbeitslasten optimieren können. Zur Optimierung haben wir reproduzierbare Rezepte für den Durchsatz zusammengestellt, die gängige ML-Frameworks und -Modelle verwenden. Informationen zu diesen Rezepten finden Sie in der GitHub-Organisation für AI Hypercomputer. Die Goodput-Rezepte wurden auf Clustern getestet, die mit dem Cluster Toolkit erstellt wurden.

Um die Zuverlässigkeit von Arbeitslasten zu optimieren und den Durchsatz zu maximieren, können Sie auch proaktiv Knoten in einem Google Kubernetes Engine-Cluster (GKE) identifizieren, bei denen die Leistung in den nächsten fünf Stunden wahrscheinlich nachlässt. Diese Vorwarnung hilft Ihnen, neue Arbeitslasten auf gefährdeten VMs zu vermeiden und so das Risiko von Unterbrechungen Ihrer Jobs zu verringern. Weitere Informationen finden Sie unter Knotenstatusvorhersage aktivieren.

Hinweis

Bevor Sie die Rezepte für den effektiven Durchsatz in diesem Dokument verwenden, führen Sie die folgenden Schritte aus, falls Sie das noch nicht getan haben:

Rezepte

Die folgenden reproduzierbaren Goodput-Rezepturen sind für das Vortraining in GKE-Clustern verfügbar:

Name des Rezepts	Beschleuniger	Modell	Framework	Arbeitslasttyp
Llama3.1 70B – A3 Mega	A3 Mega	Llama3.1 70B	NeMo	Vortraining in GKE

Nächste Schritte

Informationen zum Optimieren von Cluster-Netzwerken mithilfe von NCCL/gIB

Goodput-Optimierungsschemas Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Hinweis

Rezepte

Nächste Schritte

Goodput-Optimierungsschemas