Mögliche Fehler mithilfe von Observability erkennen

Last reviewed 2024-12-30 UTC

Dieser Grundsatz in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, mit denen Sie proaktiv Bereiche identifizieren können, in denen Fehler und Ausfälle auftreten können.

Dieser Grundsatz ist für den Beobachtung Fokusbereich der Zuverlässigkeit relevant.

Grundsatzübersicht

Um die Zuverlässigkeit Ihrer Arbeitslasten in Google Cloudaufrechtzuerhalten und zu verbessern, müssen Sie eine effektive Beobachtbarkeit implementieren, indem Sie Messwerte, Logs und Traces verwenden.

  • Messwerte sind numerische Messungen von Aktivitäten, die Sie in bestimmten Zeitintervallen für Ihre Anwendung verfolgen möchten. Sie können beispielsweise technische Messwerte wie die Anfragerate und die Fehlerrate verfolgen, die als Service Level Indicators (SLIs) verwendet werden können. Möglicherweise müssen Sie auch anwendungsspezifische geschäftliche Messwerte wie aufgegebene Bestellungen und eingegangene Zahlungen verfolgen.
  • Logs sind Zeitstempel-Aufzeichnungen einzelner Ereignisse, die in einer Anwendung oder einem System auftreten. Das Ereignis kann ein Fehler, ein Problem oder eine Zustandsänderung sein. Logs können Messwerte enthalten und Sie können Logs auch für SLIs verwenden.
  • Ein Trace stellt den Weg eines einzelnen Nutzers oder einer einzelnen Transaktion durch mehrere separate Anwendungen oder die Komponenten einer Anwendung dar. Diese Komponenten können beispielsweise Mikrodienste sein. Mit Traces können Sie nachvollziehen, welche Komponenten auf den Wegen verwendet wurden, wo Engpässe bestehen und wie lange die Wege gedauert haben.

Mit Messwerten, Logs und Traces können Sie Ihr System kontinuierlich überwachen. Eine umfassende Überwachung hilft Ihnen, herauszufinden, wo und warum Fehler aufgetreten sind. Sie können auch potenzielle Fehler erkennen, bevor sie auftreten.

Empfehlungen

Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um potenzielle Fehler effizient zu erkennen.

Umfassende Informationen erhalten

Verwenden Sie Cloud Monitoring und Cloud Logging, um wichtige Messwerte wie Antwortzeiten und Fehlerraten zu verfolgen. Mit diesen Tools können Sie auch dafür sorgen, dass die Messwerte die Anforderungen Ihrer Arbeitslasten stets erfüllen.

Analysieren Sie die Standardmesswerte des Dienstes, um datenbasierte Entscheidungen zu treffen und die Komponentenabhängigkeiten und ihre Auswirkungen auf die Gesamtleistung der Arbeitslast zu verstehen.

Wenn Sie Ihre Überwachungsstrategie anpassen möchten, erstellen und veröffentlichen Sie Ihre eigenen Messwerte mit dem Google Cloud SDK.

Proaktive Fehlerbehebung durchführen

Implementieren Sie eine robuste Fehlerbehandlung und aktivieren Sie das Logging für alle Komponenten Ihrer Arbeitslasten in Google Cloud. Aktivieren Sie Logs wie Cloud Storage-Zugriffslogs und VPC-Flusslogs.

Berücksichtigen Sie beim Konfigurieren des Loggings die damit verbundenen Kosten. Um die Loggingkosten zu kontrollieren, können Sie Ausschlussfilter für die Logsinks konfigurieren, um bestimmte Logs von der Speicherung auszuschließen.

Ressourcennutzung optimieren

Überwachen Sie die CPU-Auslastung, die Messwerte für die Netzwerk-E/A und die Messwerte für die Festplatten-E/A, um unter- und überdimensionierte Ressourcen in Diensten wie GKE, Compute Engine und Dataproc zu erkennen. Eine vollständige Liste der unterstützten Dienste finden Sie unter Cloud Monitoring – Übersicht.

Benachrichtigungen priorisieren

Konzentrieren Sie sich bei Benachrichtigungen auf wichtige Messwerte, legen Sie geeignete Grenzwerte fest, um die Anzahl der Benachrichtigungen zu minimieren, und sorgen Sie dafür, dass rechtzeitig auf wichtige Probleme reagiert wird. Mit diesem gezielten Ansatz können Sie die Zuverlässigkeit von Arbeitslasten proaktiv aufrechterhalten. Weitere Informationen finden Sie unter Benachrichtigungen.