Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mögliche Fehler mithilfe von Observability erkennen

Last reviewed 2024-12-30 UTC

Dieses Prinzip im Bereich „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, mit denen Sie proaktiv Bereiche identifizieren können, in denen Fehler und Ausfälle auftreten können.

Dieses Prinzip ist für den Beobachtungsbereich Zuverlässigkeit relevant.

Übersicht über die Grundsätze

Um die Zuverlässigkeit Ihrer Arbeitslasten inGoogle Cloudaufrechtzuerhalten und zu verbessern, müssen Sie eine effektive Beobachtbarkeit mithilfe von Messwerten, Logs und Traces implementieren.

Messwerte sind numerische Messungen von Aktivitäten, die Sie für Ihre Anwendung in bestimmten Zeitintervallen erfassen möchten. Sie können beispielsweise technische Messwerte wie Anforderungsrate und Fehlerrate erfassen, die als Service Level Indicators (SLIs) verwendet werden können. Möglicherweise müssen Sie auch anwendungsspezifische Geschäftsmesswerte wie aufgegebene Bestellungen und eingegangene Zahlungen erfassen.
Logs sind Zeitstempel-Datensätze von einzelnen Ereignissen, die in einer Anwendung oder einem System auftreten. Das Ereignis kann ein Fehler, ein Problem oder eine Zustandsänderung sein. Logs können Messwerte enthalten und Sie können Logs auch für SLIs verwenden.
Ein Trace stellt den Weg eines einzelnen Nutzers oder einer einzelnen Transaktion durch mehrere separate Anwendungen oder die Komponenten einer Anwendung dar. Diese Komponenten können beispielsweise Mikrodienste sein. Mithilfe von Traces können Sie nachvollziehen, welche Komponenten in den Abläufen verwendet wurden, wo Engpässe bestehen und wie lange die Abläufe gedauert haben.

Messwerte, Logs und Traces helfen Ihnen, Ihr System kontinuierlich zu überwachen. Durch umfassendes Monitoring können Sie herausfinden, wo und warum Fehler aufgetreten sind. Sie können auch potenzielle Fehler erkennen, bevor sie auftreten.

Empfehlungen

Beachten Sie die Empfehlungen in den folgenden Abschnitten, um potenzielle Fehler effizient zu erkennen.

Umfassende Statistiken erhalten

Verwenden Sie Cloud Monitoring und Cloud Logging, um wichtige Messwerte wie Antwortzeiten und Fehlerraten zu erfassen. Mit diesen Tools können Sie auch dafür sorgen, dass die Messwerte den Anforderungen Ihrer Arbeitslast entsprechen.

Um datengestützte Entscheidungen zu treffen, analysieren Sie die Standardmesswerte für Dienste, um die Abhängigkeiten von Komponenten und ihre Auswirkungen auf die Gesamtleistung der Arbeitslast zu verstehen.

Wenn Sie Ihre Monitoringstrategie anpassen möchten, können Sie mit dem Google Cloud SDK eigene Messwerte erstellen und veröffentlichen.

Proaktive Fehlerbehebung durchführen

Implementieren Sie eine robuste Fehlerbehandlung und aktivieren Sie das Logging für alle Komponenten Ihrer Arbeitslasten in Google Cloud. Aktivieren Sie Logs wie Cloud Storage-Zugriffslogs und VPC-Flusslogs.

Berücksichtigen Sie beim Konfigurieren der Protokollierung die damit verbundenen Kosten. Um die Logging-Kosten zu senken, können Sie Ausschlussfilter für die Logsenken konfigurieren, um bestimmte Logs vom Speichern auszuschließen.

Ressourcennutzung optimieren

Behalten Sie die CPU-Auslastung, Netzwerk-E/A-Messwerte und Festplatten-E/A-Messwerte im Blick, um unter- und überdimensionierte Ressourcen in Diensten wie GKE, Compute Engine und Managed Service for Apache Spark zu erkennen. Eine vollständige Liste der unterstützten Dienste finden Sie in der Cloud Monitoring-Übersicht.

Benachrichtigungen priorisieren

Konzentrieren Sie sich bei Benachrichtigungen auf wichtige Messwerte, legen Sie geeignete Grenzwerte fest, um die Anzahl der Benachrichtigungen zu minimieren, und sorgen Sie dafür, dass rechtzeitig auf wichtige Probleme reagiert wird. Mit diesem gezielten Ansatz können Sie die Zuverlässigkeit von Arbeitslasten proaktiv aufrechterhalten. Weitere Informationen finden Sie unter Benachrichtigungen – Übersicht.

Zurück

Horizontale Skalierbarkeit nutzen

Weiter

Design für Graceful Degradation

Mögliche Fehler mithilfe von Observability erkennen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.