Die Überwachung und Wartung von Google Distributed Cloud Connected ist eine gemeinsame Verantwortung von Google und dem Kunden. Anhand der Informationen in diesem Dokument können Sie entscheiden, wie Sie Ihre lokalen Arbeitslasten am besten bereitstellen und verwalten.
Verantwortlichkeiten von Google
Als verwalteter Hardware- und Softwaredienst ist Google für die Verwaltung und Überwachung der Infrastruktur verantwortlich, die Sie zum Bereitstellen Ihrer Geschäftsanwendungen verwenden.
Google ist für die folgenden Aspekte des Distributed Cloud Connected-Systems verantwortlich:
- Die Google Cloud Steuerungsebene
- Die Kubernetes-Steuerungsebene, der Worker-Knoten und die integrierten Systemdienste
- Von Google bereitgestellte Software-Add-ons und ‑Produkte
- Gelieferte Hardware, einschließlich Server
Google überwacht die Funktionen, für die wir verantwortlich sind, und benachrichtigt Google-Entwickler, wenn Probleme gefunden werden, damit sie diese untersuchen können.
Pflichten der Kunden
Sie sind für die folgenden Aspekte des Distributed Cloud Connected-Systems verantwortlich:
- Das lokale Netzwerk, einschließlich aller vom Kunden bereitgestellten Switches
- Internetverbindung
- Stromversorgung
- Die Umgebung, z. B. Kühlung
- Kundenanwendung und alle vom Kunden installierten Google Distributed Cloud- oder Kubernetes-Add-ons
- Bastion Host-Instanzen und Boundary-Proxy-Bereitstellungen, die dem Kunden gehören, sofern diese Funktionen verwendet werden
Google überwacht nicht direkt Probleme, für die Sie verantwortlich sind. Google überwacht beispielsweise nicht, ob eine Kunden-VM nicht richtig startet oder ob die Anwendung des Kunden nicht ausgeführt wird. Wenn Sie der Meinung sind, dass solche Verhaltensweisen auf ein Plattformproblem zurückzuführen sind, müssen Sie ein Google Cloud Support-Ticket eröffnen, damit Google dies untersuchen kann.
Geteilte Verantwortung
In einigen Fällen erkennt Google einen Websitefehler, geht aber davon aus, dass die Ursache ein websitespezifisches Problem ist, für das Sie verantwortlich sind. Wir stellen beispielsweise fest, dass die Temperaturen an allen Knoten einer Website im Laufe der Zeit steigen, gefolgt von einer Trennung der Verbindung. Dies deutet darauf hin, dass ein lokaler Kühlungsfehler das wahrscheinliche Problem ist. In diesen Fällen startet Google eine gemeinsame Fehlerbehebung mit Ihnen, um zu bestätigen, ob das Problem durch standortspezifische Kundenverantwortlichkeiten verursacht wird, und um Hardwarefehler zu überprüfen.
Damit Google Probleme erfolgreich beheben und die Ursache ermitteln kann, müssen Sie möglicherweise Informationen anfordern und von Ihnen erhalten. Google muss beispielsweise wissen, wann der Stromausfall aufgetreten ist und wann die Stromversorgung oder das Netzwerk wiederhergestellt wurde. Wenn Sie diese Informationen nicht bereitstellen können, ist Google möglicherweise nicht in der Lage, eine detaillierte Ursachenanalyse durchzuführen.
Verbindungsfehler
Im Falle eines Internetausfalls unterstützt das Produkt bis zu sieben Tage lang den Überlebensmodus. Während dieses Zeitraums ist der lokale Zugriff auf den Dienst möglich. Google kann jedoch keine Probleme mit dem System vor Ort überwachen, beheben oder diagnostizieren, bis die Netzwerkverbindung wiederhergestellt ist.
Google überwacht zwar die Trennung von Websites über die Google-Telemetriesysteme, kann aber nicht aus der Ferne feststellen, ob die Ursache Strom, ISP-Verbindung oder ein katastrophaler Ausfall der Website, z. B. durch Brand oder Überschwemmung, ist.
Wenn alle Geräte an einem Standort gleichzeitig keine Daten mehr senden, liegt wahrscheinlich ein lokales Strom- oder Netzwerkproblem vor. Um Fehlalarme zu vermeiden, informiert Google Sie möglicherweise erst dann über das Problem, wenn wir bestätigt haben, dass es sich nicht von selbst beheben lässt, z. B. aufgrund von Wartungsarbeiten des Internetanbieters, und nicht virtuell behoben werden kann. In diesem Fall ist eine weitere Fehlerbehebung erforderlich.
Wenn Google für Bastion Host und Boundary Proxy (BH/BP) konfiguriert ist, wird die Konnektivität über Ihren BH/BP und die über BH/BP verbundenen Geräte von Distributed Cloud mithilfe regelmäßiger Testanfragen überwacht. Google erwartet, dass Sie den Gesamtzustand Ihrer BH/BP-Instanzen überwachen, z. B. durch die Nachverfolgung der Ressourcennutzung. Wenn wir Konnektivitätsprobleme mit BH/BP oder mit mit Distributed Cloud verbundenen Geräten feststellen und vermuten, dass das Problem von den vom Kunden bereitgestellten Komponenten ausgeht, bitten wir Sie möglicherweise, das Problem zu diagnostizieren und zu beheben.
Debugging
Zur Unterstützung bei der Fehlerbehebung kann Google die folgenden Daten anfordern:
- Alle Konfigurationsänderungen, die auf Netzwerkgeräte angewendet wurden, die nicht von Google verwaltet werden, z. B. Switch, Router oder Firewall, einschließlich des Zeitstempels auf die nächste Sekunde
- Firewall-Verweigerungslogs, einschließlich Zeitstempel und Details
- Uhrzeit und Gründe für Neustarts des Geräts. Gründe dafür können ein Software-Upgrade, ein Stromausfall oder ein Softwarefehler sein.
- Die Uhrzeit von Stromausfällen, die möglicherweise bekannt sind, z. B. aus der Gebäude- oder Rechenzentrumsverwaltung, oder die aus der letzten Log-Meldung anderer Geräte abgeleitet werden können
- Die Uhrzeit von Netzwerkausfällen, basierend auf dem Netzwerkanbieter oder Protokollmeldungen auf dem Router oder der Firewall
Bei Interoperabilitätsproblemen kann Google auch eine gemeinsame Fehlerbehebung mit einem Anbieter verlangen, einschließlich der Weitergabe von Geräteprotokolldateien und der Aktivierung von Debugging-Optionen. Wenn möglich, versuchen wir, das Problem in einer Kundenlaborumgebung zu reproduzieren.
In einigen Fällen kann Google Informationen von unseren verwalteten Geräten abrufen, diese sind jedoch möglicherweise unvollständig. Nach einem Stromausfall kann es beispielsweise länger dauern, bis die Verbindung zum Internetanbieter hochgefahren ist, als bis die mit Distributed Cloud verbundenen Server hochgefahren sind.
Aufteilung der Verantwortung
Anhand der folgenden Tabelle können Sie feststellen, wer für die einzelnen Aufgaben verantwortlich ist.
| Aufgabe | Kunde | |
|---|---|---|
| Probleme mit der Bereitstellung erkennen und Kundenbenachrichtigungen zur Untersuchung senden | X | |
| Probleme mit der Stromversorgung beheben | X | |
| Beheben Sie Netzwerkprobleme, einschließlich aller vom Kunden bereitgestellten Switches. | X | X |
| Umgebungsprobleme beheben, z. B. Kühlung | X | |
| Bastion Host-Instanzen und Boundary Proxy-Bereitstellungen, sofern bereitgestellt, auflösen | X | |
| API-Verwaltungsebene überwachen | X | |
| Kubernetes-Steuerungsebene, Worker-Knoten und integrierte Systemdienste überwachen | X | |
| Von Google bereitgestellte Software-Add-ons und -Produkte wie Symcloud Storage überwachen | X | |
| Überwachen der bereitgestellten Hardware, z. B. Server und bei einigen Bereitstellungen Netzwerkgeräte | X | |
| Vom Kunden bereitgestellte Netzwerkgeräte überwachen | X | |
| Upstream-Netzwerkverbindung überwachen | X | |
| Gemeinsamen Support für die Fehlerbehebung bei Netzwerk- oder Umgebungsproblemen anbieten | X | |
| Beobachtbarkeit der Plattform, einschließlich Messwerten und Logs | X | |
| Beobachtbarkeit von Anwendungen, einschließlich Messwerten und Logs | X | |
| Auf Anfragen reagieren, in denen Probleme untersucht werden sollen, die vermutlich in der Verantwortung des Kunden liegen | X |