Responsabilité partagée de Google Distributed Cloud connecté

La surveillance et la maintenance de Google Distributed Cloud connected sont une responsabilité partagée entre Google et le client. Utilisez les informations de ce document pour déterminer la meilleure façon de déployer et de gérer vos charges de travail sur site.

Responsabilités de Google

En tant que service matériel et logiciel géré, Google est responsable de la gestion et de la surveillance de l'infrastructure que vous utilisez pour déployer vos applications métier.

Google est responsable des aspects suivants du système Distributed Cloud connecté :

  • Plan de contrôle Google Cloud
  • Le plan de contrôle Kubernetes, le nœud de calcul et les services système intégrés
  • Produits et modules complémentaires logiciels fournis par Google
  • Matériel fourni, y compris les serveurs

Google surveille les fonctionnalités dont il est responsable et alerte les ingénieurs Google en cas de problème afin qu'ils puissent enquêter.

Responsabilités du client

Vous êtes responsable des aspects suivants du système Distributed Cloud connecté :

  • Le réseau local, y compris les commutateurs fournis par le client
  • Connectivité Internet
  • Alimentation
  • L'environnement, comme le refroidissement
  • Application client et tous les modules complémentaires Google Distributed Cloud ou Kubernetes installés par le client
  • Instances d'hôte bastion et déploiements de proxy de limite appartenant au client, si vous utilisez ces fonctionnalités

Google ne surveille pas directement les problèmes qui relèvent de votre responsabilité. Par exemple, Google ne vérifie pas si une VM client ne démarre pas correctement ou si l'application du client ne s'exécute pas. Si vous pensez que ces comportements sont dus à un problème de plate-forme, vous devez ouvrir une demande d'assistance Google Cloud pour que Google puisse enquêter.

Responsabilité partagée

Dans certains cas, Google détecte une défaillance du site, mais pense que la cause est un problème spécifique au site dont vous êtes responsable. Par exemple, nous pouvons observer une augmentation progressive de la température au fil du temps sur tous les nœuds d'un site, suivie d'une déconnexion, ce qui indique qu'un problème de refroidissement local est probablement en cause. Dans ces scénarios, Google lance un dépannage collaboratif avec vous pour confirmer si le problème est dû à des responsabilités spécifiques au site et pour vérifier toute défaillance matérielle.

Pour résoudre les problèmes et en déterminer la cause première, Google peut avoir besoin de vous demander des informations et de les recevoir. Par exemple, Google peut avoir besoin de connaître l'heure de la panne de courant et le moment où l'alimentation ou le réseau sont rétablis. Si vous ne pouvez pas fournir ces informations, il est possible que Google ne soit pas en mesure d'effectuer une analyse détaillée des causes profondes.

Échecs de connectivité

En cas de défaillance de la connectivité Internet, le produit est compatible avec le mode survie pendant sept jours maximum. Pendant cette période, l'accès local au service est disponible. Toutefois, Google ne peut pas surveiller, atténuer ni diagnostiquer les problèmes liés au système sur site tant que la connectivité réseau n'est pas rétablie.

Bien que Google surveille les déconnexions de sites à partir des systèmes de télémétrie Google, nous ne pouvons pas déterminer à distance si la cause première est une panne d'électricité, une perte de connectivité avec le FAI ou une défaillance catastrophique du site, comme un incendie ou une inondation.

Si tous les équipements d'un site cessent de renvoyer des données simultanément, la cause probable est un problème d'alimentation ou de réseau local. Pour éviter les fausses alertes, Google peut ne pas communiquer le problème tant que nous n'avons pas confirmé qu'il ne se résoudra pas de lui-même (par exemple, en raison d'une maintenance du FAI) et qu'il ne peut pas être résolu virtuellement. Dans ce cas, un dépannage supplémentaire est nécessaire.

Lorsqu'il est configuré pour un hôte bastion et un proxy de limite (BH/BP), Google surveille la connectivité à l'aide de votre BH/BP et des appareils connectés Distributed Cloud via BH/BP à l'aide de requêtes de test périodiques. Google s'attend à ce que vous surveilliez l'état général de vos instances BH/BP, par exemple en suivant l'utilisation des ressources. Si nous détectons des problèmes de connectivité avec BH/BP ou avec des appareils connectés au Distributed Cloud, et que nous pensons que le problème peut provenir des composants appartenant au client, nous pouvons vous demander de diagnostiquer et de résoudre le problème.

Débogage

Pour faciliter le débogage, Google peut vous demander les données suivantes :

  • Toute modification de configuration appliquée à un équipement réseau non géré par Google, tel que le commutateur, le routeur ou le pare-feu, y compris le code temporel à la seconde près
  • Journaux de refus du pare-feu, y compris le code temporel et les détails
  • Heure et raisons des redémarrages de l'appareil. Il peut s'agir d'une mise à niveau logicielle, d'une panne de courant ou d'une erreur logicielle.
  • L'heure de toute panne de courant connue (par exemple, par la gestion du bâtiment ou du centre de données) ou déduite du dernier message du journal d'autres équipements
  • L'heure de toute panne réseau, basée sur le fournisseur de réseau ou les messages du journal sur le routeur ou le pare-feu

En cas de problèmes d'interopérabilité, Google peut également exiger un débogage conjoint avec un fournisseur, y compris le partage des fichiers journaux de l'appareil et l'activation des options de débogage. Dans la mesure du possible, nous essayons de reproduire le problème dans un environnement de laboratoire client.

Dans certains cas, Google peut obtenir des informations à partir de nos équipements gérés, mais elles peuvent être incomplètes. Par exemple, après une panne de courant, la connexion FAI peut prendre plus de temps à démarrer que les serveurs connectés au Distributed Cloud.

Répartition des responsabilités

Utilisez le tableau suivant pour déterminer qui est responsable des tâches courantes.

Tâche Client Google
Identifier les problèmes de déconnexion du déploiement et envoyer des notifications aux clients pour qu'ils puissent les examiner X
Résoudre les problèmes d'alimentation X
Résolvez les problèmes de réseau, y compris ceux liés aux commutateurs fournis par le client. X X
Résoudre les problèmes liés à l'environnement, comme le refroidissement X
Résolvez les instances d'hôte bastion appartenant au client et les déploiements de proxy de limite, le cas échéant. X
Surveiller le plan de gestion des API X
Surveiller le plan de contrôle Kubernetes, le nœud de calcul et les services système intégrés X
Surveiller les modules complémentaires et produits logiciels fournis par Google, tels que Symcloud Storage X
Surveiller le matériel fourni, comme les serveurs et, pour certains déploiements, l'équipement réseau X
Surveiller l'équipement réseau fourni par le client X
Surveiller la connectivité réseau en amont X
Fournir une assistance de débogage conjointe pour les problèmes liés au réseau ou à l'environnement X
Observabilité de la plate-forme, y compris les métriques et les journaux X
Observabilité des applications, y compris les métriques et les journaux X
Répondre aux demandes d'examen des problèmes qui relèvent de la responsabilité du client X