In diesem Dokument wird beschrieben, wie Sie Probleme mit der langsamen Leistung von Arbeitslasten beheben, die auf KI-optimierten VMs oder Clustern ausgeführt werden.
Informationen zum Erkennen von Leistungsproblemen finden Sie unter Compute Engine-Instanzen und Slurm-Cluster überwachen.
Potenzielle Nachzügler für Ihre Arbeitslast identifizieren und beheben: Führen Sie die folgenden Schritte aus:
Prüfen Sie, ob Sie die Nachzüglererkennung für Ihre Arbeitslast verwenden können. Informationen zu den Einschränkungen und Anforderungen für die Verwendung der Nachzüglererkennung finden Sie unter Compute Engine-Instanzen und Slurm-Cluster überwachen.
Wenn Sie die Nachzüglererkennung nicht verwenden können, dann nutzen Sie andere Optionen zur Fehlerbehebung bei Leistungsproblemen.
Prüfen Sie anhand der Messwerte zur Nachzüglererkennung, ob VMs für Ihre Arbeitslast als potenzielle Nachzügler infrage kommen.
So visualisieren Sie beispielsweise alle potenziellen Nachzügler für Ihr Projekt in Cloud Monitoring:
-
Öffnen Sie in der Google Cloud Console die Dashboards Seite:
Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.
Klicken Sie im Bereich Typ des Filterbereichs auf Google-Dienste.
Klicken Sie in der Spalte Name auf Cluster Director Health Monitoring.
Die Detailseite für das Dashboard wird geöffnet.
Wählen Sie mit der Zeitraumauswahl in der Symbolleiste den Zeitraum aus, in dem die Leistungsprobleme aufgetreten sind. Die Nachzüglererkennung dauert in der Regel bis zu 10 Minuten, bis ein Nachzügler gemeldet wird.
Prüfen Sie im Bereich Nachzüglererkennung , ob VMs für Ihre Arbeitslast als potenzielle Nachzügler infrage kommen. Mit dieser Abfrage können Sie prüfen, ob in der Tabelle Potenzielle Nachzüglerinstanzen VMs für Ihre Arbeitslast aufgeführt sind.
-
Gehen Sie je nach Anzahl der VMs für Ihre Arbeitslast, die als potenzielle Nachzügler infrage kommen, so vor:
Wenn keine VMs als potenzielle Nachzügler infrage kommen, prüfen Sie, ob die Nachzüglererkennung ordnungsgemäß ausgeführt wird. Folgen Sie der Anleitung zum Aufrufen von Logs zur Nachzüglererkennung und geben Sie die Abfrage für alle Logs zur Nachzüglererkennung in Ihrem Projekt an, um zu prüfen, ob der Dienst zur Nachzüglererkennung für Ihr Projekt ausgeführt wird. Gehen Sie dann so vor:
Wenn in Ihrem Projekt keine Logs zur Nachzüglererkennung vorhanden sind, obwohl VMs seit mindestens 10 Minuten ausgeführt werden, wird der Dienst zur Nachzüglererkennung nicht für Ihr Projekt ausgeführt. Wenden Sie sich an den Cloud Customer Care oder versuchen Sie es später noch einmal.
Wenn Sie geprüft haben, dass die Nachzüglererkennung für Ihr Projekt ausgeführt wird und Ihre Arbeitslast die Nachzüglererkennung unterstützt, werden die Leistungsprobleme möglicherweise durch ein anderes Problem verursacht. Nutzen Sie andere Optionen zur Fehlerbehebung bei Leistungsproblemen.
Wenn eine kleine Anzahl von VMs in Ihrer Arbeitslast als potenzielle Nachzügler gemeldet wird, testen Sie die Migration Ihrer Arbeitslast von den potenziellen Nachzüglern. Gehen Sie dann so vor:
Wenn die Migration die Leistung Ihrer Arbeitslast wiederherstellt, sind die potenziellen Nachzügler möglicherweise fehlerhaft. Führen Sie für jede dieser VMs die Schritte zum Melden eines fehlerhaften Hosts aus und legen Sie
FAULT_REASONaufPERFORMANCEundDESCRIPTIONaufstraggler nodefest.Wenn die Migration die Leistung nicht wiederherstellt, gibt es möglicherweise weitere potenzielle Nachzügler-VMs oder die Leistungsprobleme werden durch ein anderes Problem verursacht. Sie können prüfen, ob weitere VMs für Ihre Arbeitslast als potenzielle Nachzügler infrage kommen oder andere Optionen zur Fehlerbehebung bei Leistungsproblemen nutzen.
Wenn eine große Anzahl von VMs in Ihrer Arbeitslast als potenzielle Nachzügler gemeldet wird, nutzen Sie andere Optionen zur Fehlerbehebung bei Leistungsproblemen.
Andere Optionen zur Fehlerbehebung bei Leistungsproblemen nutzen: Wenn die gemeldete Liste potenzieller Nachzügler-VMs lang ist oder wenn das Entfernen gemeldeter Nachzügler VMs die Leistung nicht wiederherstellt, nutzen Sie andere Optionen zur Fehlerbehebung bei Leistungsproblemen, z. B.:
- Cluster mit dem Cluster Health Scanner testen.
- Andere Messwerte für die Leistung prüfen.
- Andere Dokumentation zur Fehlerbehebung lesen Weitere Informationen finden Sie beispielsweise unter Fehlerbehebung bei GPU-VMs in der Compute Engine-Dokumentation.