In diesem Dokument wird beschrieben, wie Sie Probleme mit der langsamen Leistung von Arbeitslasten beheben, die auf KI-optimierten VMs oder Clustern ausgeführt werden.
Informationen zum Erkennen einer langsamen Leistung finden Sie unter Compute Engine-Instanzen und Slurm-Cluster überwachen.
Verdächtige Nachzügler für Ihre Arbeitslast identifizieren und beheben: Führen Sie die folgenden Schritte aus:
Prüfen Sie, ob Sie die Erkennung von Nachzüglern für Ihre Arbeitslast verwenden können. Informationen zu den Einschränkungen und Anforderungen für die Verwendung der Straggler-Erkennung finden Sie unter Compute Engine-Instanzen und Slurm-Cluster überwachen.
Wenn Sie die Erkennung von Ausreißern nicht verwenden können, nutzen Sie andere Optionen zur Fehlerbehebung bei langsamer Leistung.
Wenn Sie prüfen möchten, ob VMs für Ihre Arbeitslast als Straggler infrage kommen, sehen Sie sich die Messwerte zur Straggler-Erkennung an.
Wenn Sie beispielsweise alle mutmaßlichen Nachzügler für Ihr Projekt in Cloud Monitoring visualisieren möchten, führen Sie die folgenden Schritte aus:
-
Öffnen Sie in der Google Cloud Console die Seite Dashboards :
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Klicken Sie im Bereich „Filter“ im Abschnitt Typ auf Google-Dienste.
Klicken Sie in der Spalte Name auf Cluster Director Health Monitoring.
Die Detailseite für das Dashboard wird geöffnet.
Wählen Sie in der Symbolleiste mit der Zeitraumauswahl den Zeitraum aus, in dem die Leistung langsam war. Es dauert in der Regel bis zu 10 Minuten, bis ein Nachzügler erkannt wird.
Wenn Sie prüfen möchten, ob VMs für Ihre Arbeitslast als Straggler infrage kommen, lesen Sie den Abschnitt Straggler Detection (Straggler-Erkennung). Mit dieser Abfrage können Sie prüfen, ob in der Tabelle Suspected Straggler Instances (Mutmaßliche Nachzüglerinstanzen) VMs für Ihre Arbeitslast aufgeführt sind.
-
Gehen Sie je nach Anzahl der VMs für Ihre Arbeitslast, die als Nachzügler infrage kommen, so vor:
Wenn keine VMs als Straggler infrage kommen, prüfen Sie, ob die Straggler-Erkennung richtig ausgeführt wird. Wenn Sie prüfen möchten, ob der Dienst zur Erkennung von Nachzüglern für Ihr Projekt ausgeführt wird, folgen Sie der Anleitung zum Aufrufen von Logs zur Erkennung von Nachzüglern und geben Sie die Abfrage für alle Logs zur Erkennung von Nachzüglern in Ihrem Projekt an. Gehen Sie dann so vor:
Wenn Ihr Projekt keine Protokolle zur Erkennung von Nachzüglern enthält, obwohl VMs mindestens 10 Minuten lang ausgeführt werden, wird der Dienst zur Erkennung von Nachzüglern für Ihr Projekt nicht ausgeführt. Wenden Sie sich an den Cloud-Kundendienst, um das Problem zu beheben, oder versuchen Sie es später noch einmal.
Wenn Sie bestätigt haben, dass die Erkennung von Nachzüglern für Ihr Projekt ausgeführt wird und Ihr Arbeitslast die Erkennung von Nachzüglern unterstützt, kann die langsame Leistung durch ein anderes Problem verursacht werden. Andere Optionen zur Fehlerbehebung bei langsamer Leistung verwenden
Wenn eine kleine Anzahl von VMs in Ihrer Arbeitslast als mutmaßliche Nachzügler gemeldet wird, testen Sie, ob Sie Ihre Arbeitslast von den mutmaßlichen VMs migrieren können. Gehen Sie dann so vor:
Wenn die Migration die Leistung Ihrer Arbeitslast wiederherstellt, sind die verdächtigen VMs möglicherweise fehlerhaft. Führen Sie für jede dieser VMs die Schritte zum Melden eines fehlerhaften Hosts aus und legen Sie
FAULT_REASONaufPERFORMANCEundDESCRIPTIONaufstraggler nodefest.Wenn die Leistung durch die Migration nicht wiederhergestellt wird, gibt es möglicherweise weitere verdächtige Straggler-VMs oder die langsame Leistung wird durch ein anderes Problem verursacht. Sie können prüfen, ob weitere VMs für Ihre Arbeitslast als Nachzügler infrage kommen, oder andere Optionen zur Fehlerbehebung bei langsamer Leistung verwenden.
Wenn eine große Anzahl von VMs in Ihrer Arbeitslast als mutmaßliche Nachzügler gemeldet wird, verwenden Sie andere Optionen zur Fehlerbehebung bei langsamer Leistung.
Andere Optionen zur Fehlerbehebung bei langsamer Leistung verwenden: Wenn die gemeldete Liste der mutmaßlichen Straggler-VMs lang ist oder wenn das Entfernen der gemeldeten Straggler-VMs die Leistung nicht wiederherstellt, verwenden Sie andere Optionen zur Fehlerbehebung bei langsamer Leistung, z. B. die folgenden:
- Cluster mit dem Cluster Health Scanner testen
- Andere Messwerte für die Leistung ansehen
- Sehen Sie sich andere Dokumentationen zur Fehlerbehebung an. Ein Beispiel finden Sie in der Compute Engine-Dokumentation unter Fehlerbehebung bei GPU-VMs.