Fehlerbehebung bei unzureichender Leistung

In diesem Dokument wird beschrieben, wie Sie Probleme mit der langsamen Leistung von Arbeitslasten beheben, die auf KI-optimierten VMs oder Clustern ausgeführt werden.

Informationen zum Erkennen einer langsamen Leistung finden Sie unter Compute Engine-Instanzen und Slurm-Cluster überwachen.

  1. Verdächtige Nachzügler für Ihre Arbeitslast identifizieren und beheben: Führen Sie die folgenden Schritte aus:

    1. Prüfen Sie, ob Sie die Erkennung von Nachzüglern für Ihre Arbeitslast verwenden können. Informationen zu den Einschränkungen und Anforderungen für die Verwendung der Straggler-Erkennung finden Sie unter Compute Engine-Instanzen und Slurm-Cluster überwachen.

      Wenn Sie die Erkennung von Ausreißern nicht verwenden können, nutzen Sie andere Optionen zur Fehlerbehebung bei langsamer Leistung.

    2. Wenn Sie prüfen möchten, ob VMs für Ihre Arbeitslast als Straggler infrage kommen, sehen Sie sich die Messwerte zur Straggler-Erkennung an.

      Wenn Sie beispielsweise alle mutmaßlichen Nachzügler für Ihr Projekt in Cloud Monitoring visualisieren möchten, führen Sie die folgenden Schritte aus:

      1. Öffnen Sie in der Google Cloud Console die Seite Dashboards :

        Zu Dashboards

        Wenn Sie diese Seite über die Suchleiste suchen, wählen Sie das Ergebnis aus, dessen Zwischenüberschrift Monitoring ist.

      2. Klicken Sie im Bereich „Filter“ im Abschnitt Typ  auf Google-Dienste.

      3. Klicken Sie in der Spalte Name auf Cluster Director Health Monitoring.

        Die Detailseite für das Dashboard wird geöffnet.

      4. Wählen Sie in der Symbolleiste mit der Zeitraumauswahl den Zeitraum aus, in dem die Leistung langsam war. Es dauert in der Regel bis zu 10 Minuten, bis ein Nachzügler erkannt wird.

      5. Wenn Sie prüfen möchten, ob VMs für Ihre Arbeitslast als Straggler infrage kommen, lesen Sie den Abschnitt Straggler Detection (Straggler-Erkennung). Mit dieser Abfrage können Sie prüfen, ob in der Tabelle Suspected Straggler Instances (Mutmaßliche Nachzüglerinstanzen) VMs für Ihre Arbeitslast aufgeführt sind.

    3. Gehen Sie je nach Anzahl der VMs für Ihre Arbeitslast, die als Nachzügler infrage kommen, so vor:

  2. Andere Optionen zur Fehlerbehebung bei langsamer Leistung verwenden: Wenn die gemeldete Liste der mutmaßlichen Straggler-VMs lang ist oder wenn das Entfernen der gemeldeten Straggler-VMs die Leistung nicht wiederherstellt, verwenden Sie andere Optionen zur Fehlerbehebung bei langsamer Leistung, z. B. die folgenden: