Mode de survie

Les clusters connectés Distributed Cloud utilisent un plan de contrôle local déployé sur votre matériel connecté Distributed Cloud. Lorsque la connexion à Google Cloudest perdue, vos clusters passent en mode de survie et vos charges de travail continuent de s'exécuter pendant sept jours maximum. Si une charge de travail est interrompue alors que le cluster est en mode de capacité de survie, la mise en cache locale des images garantit que la charge de travail est rétablie lorsque la connexion Google Cloud est restaurée.

Un cluster peut passer en mode de survie en raison d'un défaut matériel ou logiciel indépendant de la volonté de Google, ou en raison d'un défaut dans le matériel ou le logiciel Distributed Cloud connecté.

Exemples de défaillances indépendantes de la volonté de Google :

  • Échec de la connectivité Internet sur le site de déploiement.
  • Mauvaise configuration du pare-feu ou du réseau, ou défaillance matérielle sur le site de déploiement.
  • L'instance de proxy de limite desservant le cluster est arrêtée ou mal configurée.

Si votre cluster Distributed Cloud connecté fonctionne en mode de continuité pendant sept jours ou moins en raison d'une défaillance matérielle ou logicielle indépendante de la volonté de Google, l'assistance Google vous aidera à le rétablir jusqu'à la limite de sept jours. Au-delà de sept jours, l'assistance n'est pas garantie.

Voici quelques exemples de défaillances dans le matériel ou le logiciel connecté au cloud distribué :

  • Une mise à jour logicielle Distributed Cloud connectée défectueuse.
  • Défaillance de la machine connectée au cloud distribué ou du matériel réseau.
  • Un défaut non diagnostiqué dans le logiciel Distributed Cloud connecté.

Si votre cluster connecté Distributed Cloud passe en mode de survie en raison d'un défaut dans le logiciel ou le matériel connecté Distributed Cloud, l'assistance Google vous aide jusqu'à ce que le cluster soit restauré et fonctionne normalement.

Que se passe-t-il lorsqu'un cluster passe en mode de survie ?

Lorsqu'un cluster connecté Distributed Cloud passe en mode de survie, les événements suivants se produisent :

  • Google vous informe par e-mail que le cluster concerné est passé en mode de survie. L'e-mail est envoyé à la catégorie technique des contacts essentiels spécifiée dans le projet Google Cloud correspondant.
  • Si vous avez besoin d'aide pour restaurer le fonctionnement normal de votre cluster, contactez l'assistance Google.

Fonctionnement du cluster en mode de survie

En mode de capacité de survie, un cluster Distributed Cloud connecté fonctionne comme suit :

  • Lorsque la connexion à Google Cloud est perdue, Distributed Cloud connected tente en permanence de se reconnecter à Google Cloud jusqu'à ce que la connexion soit rétablie.
  • Le contrôle des charges de travail via Google Cloud CLI, l'interface de ligne de commande kubectl et l'API Distributed Cloud Edge Container est désactivé. Toutefois, vous pouvez générer des identifiants hors connexion pour accéder à vos clusters via une autre connexion Internet, comme décrit dans Obtenir des identifiants pour un cluster.
  • Les mises à jour logicielles, les SLO et les réparations matérielles de Distributed Cloud ne sont pas disponibles.
  • Les journaux et métriques limités sont synchronisés avec Google Cloud une fois la connexion à Google Cloud rétablie :
    • Les métriques système sont limitées à 6 Go ou 22 heures, selon la première limite atteinte.
    • Les journaux de charge de travail sont limités à quatre heures.
    • Les métriques de charge de travail sont limitées à 1 Go.
    • Les journaux d'audit sont limités à 10 Go.
  • Par défaut, si un nœud redémarre alors que le cluster est déconnecté de Google Cloud, il ne peut pas rejoindre son cluster tant que la connexion à Google Cloud n'est pas rétablie, car sa clé d'authentification ne peut pas être actualisée. Vous pouvez spécifier une fenêtre de redémarrage hors connexion pendant laquelle un nœud peut rejoindre un cluster après son redémarrage, tandis que le cluster s'exécute en mode de survie. Pour en savoir plus, consultez Créer un cluster.

Que faire lorsqu'un cluster quitte le mode Survie ?

Lorsqu'un cluster Distributed Cloud connecté quitte le mode de disponibilité, vérifiez les points suivants :

  • Version du logiciel Distributed Cloud connecté. Vous devrez peut-être mettre à jour le cluster concerné vers la dernière version du logiciel Distributed Cloud Connected, sauf si vous avez délibérément épinglé le cluster à une version logicielle spécifique. Pour en savoir plus, consultez Mettre à niveau la version logicielle d'un cluster.
  • Certificats de gestion de parc Vous devrez peut-être actualiser vos certificats LOAS de gestion de flotte expirés. Pour résoudre ce problème, contactez l'assistance Google.

Vérifier l'état de la connexion d'un cluster

Vous pouvez vérifier l'état de votre cluster Distributed Cloud Google Clouden suivant les étapes décrites dans Obtenir des informations sur un cluster. La commande renvoie la valeur du champ connectionState. Ce champ peut présenter l'une des valeurs suivantes :

  • CONNECTED : le cluster est connecté à Google Cloudet entièrement synchronisé avec celui-ci.
  • DISCONNECTED : le cluster n'est pas connecté à Google Cloud.
  • CONNECTED_AND_SYNCING : le cluster s'est reconnecté à Google Cloud et synchronise les données hors connexion avec Google Cloud. Ne déconnectez pas ce cluster de Google Cloud avant la fin de la synchronisation.

Étapes suivantes