Cette page décrit les bonnes pratiques à suivre pour assurer la haute disponibilité de votre installation Google Distributed Cloud connecté. Distributed Cloud connecté ne propose pas de contrat de niveau de service (SLA, Service Level Agreement) et fournit uniquement l'objectif de niveau de service (SLO, Service Level Objective) décrit sur cette page.
Choisir et implémenter le niveau de disponibilité
Vous devez choisir le niveau de disponibilité de vos charges de travail Distributed Cloud connecté qui correspond le mieux aux besoins de votre entreprise. Par exemple, une application de caisse automatique dans un magasin de vente au détail présente un risque de disponibilité beaucoup plus faible qu'un déploiement RAN de périphérie d'un opérateur de réseau mobile.
La disponibilité cible est directement proportionnelle à la capacité de ressources de secours Distributed Cloud que vous réservez en cas d'urgence. Le tableau suivant décrit cette relation. Ces estimations n'incluent pas les temps d'arrêt planifiés avec un intervalle de maintenance.
Le logiciel Distributed Cloud connecté consomme certaines ressources sur chaque machine physique. La quantité varie en fonction de la configuration spécifique de votre déploiement Distributed Cloud connecté. Google vous recommande d'évaluer votre déploiement Distributed Cloud connecté pour mesurer cette quantité et en tenir compte lors de la planification de la distribution de votre charge de travail.
| Facteur de forme GDC connecté | Capacité utilisée | Capacité réservée | Disponibilité cible |
|---|---|---|---|
| Rack GDC connecté (cluster unique de six machines) |
83,33 % | 16,67 % | 99,9 % |
| Rack GDC connecté (cluster unique de six machines) |
100% | 0% | 93,5 % |
| Serveur GDC connecté (cluster unique de trois machines) |
66,6 % | 33,3 % | 99,9 % |
Vous pouvez subir une perte soudaine de capacité en raison d'une défaillance matérielle ou d'un nœud nécessitant un redémarrage. Pour vous y préparer, vous devez concevoir vos charges de travail en tenant compte des quotas de ressources afin de toujours disposer d'une capacité disponible sur chaque nœud Distributed Cloud connecté qui répond au niveau de disponibilité choisi.
Par exemple, pour atteindre une disponibilité cible de 99,9 % sur un déploiement de rack Distributed Cloud connecté, vous devez configurer vos charges de travail de sorte que l'une des six machines physiques de chaque cluster Distributed Cloud connecté soit disponible en tant que sauvegarde.
Diversifier géographiquement vos zones Distributed Cloud
Pour minimiser l'impact des éventuelles défaillances du plan de gestion, nous vous recommandons vivement de répartir vos zones Distributed Cloud sur plusieurs régions voisines.
Utiliser le mode de survie
Les clusters Distributed Cloud utilisent un plan de contrôle local qui s'exécute sur votre matériel Distributed Cloud connecté. Vos charges de travail continuent de s'exécuter lorsque la connexion à Google Cloud est perdue. Pour en savoir plus, consultez le mode de survie Distributed Cloud connecté .
Comprendre les mises à jour logicielles et les intervalles de maintenance
Google met régulièrement à jour le logiciel Distributed Cloud connecté. Ces mises à jour logicielles sont obligatoires et vous ne pouvez pas les refuser. Distributed Cloud connecté vous permet de spécifier des intervalles de maintenance individuels pour chacun de vos clusters Distributed Cloud connecté.
Pour limiter les interruptions transitoires potentielles de vos charges de travail, les intervalles de maintenance vous permettent de contrôler le moment où les mises à niveau automatiques des plans de contrôle et des nœuds peuvent avoir lieu. Les intervalles de maintenance s'avèrent utiles dans certains types de scénarios, parmi lesquels :
- Heures creuses : vous souhaitez réduire les risques de temps d'arrêt en planifiant des mises à jour automatiques pendant les heures creuses, lorsque le trafic est réduit.
- Heures de travail : vous tenez à ce que les mises à niveau aient lieu pendant les heures de travail, afin que quelqu'un puisse les surveiller et gérer tout problème imprévu.
- Mises à niveau multicluster : vous souhaitez déployer les mises à niveau sur plusieurs clusters situés dans différentes régions, à raison d'une à la fois et durant des intervalles spécifiés.
Distributed Cloud connecté est compatible avec les types d'intervalles de maintenance suivants :
- Intervalle de maintenance : spécifie un intervalle de temps pendant lequel Google peut effectuer des opérations de maintenance et des mises à niveau logicielles sur votre cluster Distributed Cloud connecté.
- Intervalle d'exclusion de maintenance : spécifie un intervalle de temps pendant lequel Google ne peut pas effectuer d'opérations de maintenance ni de mises à niveau logicielles sur votre cluster Distributed Cloud connecté. Pour configurer un intervalle d'exclusion de maintenance, vous devez d'abord configurer un intervalle de maintenance. Un intervalle d'exclusion de maintenance prévaut sur l'intervalle de maintenance du cluster.
En plus des mises à niveau automatiques, Google peut parfois avoir besoin d'effectuer d'autres tâches de maintenance. Dans ce cas, il tient compte, dans la mesure du possible, de l'intervalle de maintenance d'un cluster.
Si l'exécution des tâches dépasse l'intervalle de maintenance, Distributed Cloud connecté tente de les mettre en pause. Il tente ensuite de les reprendre lors de l'intervalle de maintenance suivant.
Distributed Cloud connecté se réserve le droit de déployer des mises à niveau d'urgence non planifiées en dehors des intervalles de maintenance. En outre, les mises à niveau obligatoires des logiciels obsolètes peuvent se produire automatiquement en dehors des intervalles de maintenance.
Vous pouvez également mettre à niveau votre cluster manuellement à tout moment. Les mises à jour lancées manuellement commencent immédiatement et ignorent les intervalles de maintenance.
Pour savoir comment configurer un intervalle de maintenance pour un cluster nouveau ou existant, consultez la page Configurer un intervalle de maintenance.
Échelonnement des mises à jour logicielles
Pour réduire les temps d'arrêt des charges de travail, les mises à jour logicielles Distributed Cloud connecté sont échelonnées. En d'autres termes, Google met à niveau les nœuds de calcul de chaque cluster Distributed Cloud connecté par étapes. Tous les nœuds de calcul d'une étape de mise à niveau logicielle sont mis hors service simultanément.
Le nombre de nœuds dans une étape de mise à niveau logicielle est déterminé comme suit :
- Déploiements de trois racks ou moins : chaque étape correspond au nombre total de machines sur tous les racks divisé par six et arrondi à l'entier supérieur.
- Déploiements de quatre racks ou plus : chaque étape correspond au nombre total de machines sur tous les racks du déploiement divisé par le nombre de racks du déploiement.
Vous avez également la possibilité de définir votre propre taille d'étape de mise à niveau logicielle. En d'autres termes, vous pouvez spécifier le nombre de nœuds qui peuvent être mis hors service simultanément pour une mise à niveau logicielle dans un cluster Distributed Cloud connecté. Pour obtenir des instructions, consultez Gérer les temps d'arrêt des nœuds lors des mises à niveau logicielles.
Restrictions
Les intervalles de maintenance sont soumis aux restrictions suivantes :
Un seul intervalle de maintenance par cluster : vous ne pouvez configurer qu'un seul intervalle de maintenance par cluster. La configuration d'un nouvel intervalle de maintenance remplace la configuration précédente.
Fuseaux horaires des intervalles de maintenance : lorsque vous configurez et affichez des intervalles de maintenance, les heures s'affichent différemment selon l'outil que vous utilisez, comme décrit dans les sections suivantes.
Lors de la configuration des intervalles de maintenance
Lorsque vous utilisez l'option plus générique --maintenance-window pour configurer un intervalle de maintenance, vous ne pouvez pas spécifier de fuseau horaire. Lorsque vous utilisez Google Cloud CLI ou l'API, le temps UTC est utilisé pour afficher les heures. La
Google Cloud console utilise le fuseau horaire local pour afficher les heures.
Lorsque vous utilisez des options plus précises, telles que --maintenance-window-start, vous pouvez spécifier le fuseau horaire dans la valeur. Si vous omettez le fuseau horaire, votre fuseau horaire local est utilisé. Les heures sont toujours stockées en temps UTC.
Lors de l'affichage des intervalles de maintenance
Lorsque vous affichez les informations sur votre cluster, les horodatages des intervalles de maintenance peuvent s'afficher en temps UTC ou dans votre fuseau horaire local, selon l'outil utilisé pour les consulter :
- Lorsque vous utilisez la Google Cloud console pour afficher les informations sur votre cluster, les heures sont toujours affichées dans votre fuseau horaire local.
- Lorsque vous utilisez gCloud CLI pour afficher les informations sur votre cluster, les heures sont toujours affichées en temps UTC.
Dans les deux cas, RRULE est toujours au format UTC. Cela signifie que si vous spécifiez, par exemple, les jours de la semaine, ces jours sont affichés au format UTC.
Configurer les intervalles de maintenance des clusters
Distributed Cloud connecté vous permet de spécifier un intervalle de maintenance pour chacun de vos clusters Distributed Cloud connecté. Cet intervalle indique à Google de ne mettre à jour le logiciel Distributed Cloud qu'à l'heure et à la fréquence que vous spécifiez.
Les règles suivantes régissent les intervalles de maintenance des clusters Distributed Cloud connecté :
- Si vous spécifiez un intervalle de maintenance pour un cluster Distributed Cloud connecté, Google met à jour votre logiciel Distributed Cloud connecté 48 heures après l' annonce de la mise à jour dans les notes de version de Distributed Cloud connecté. Sur la page des notes de version, vous pouvez vous abonner au flux RSS des notes de version de Distributed Cloud connecté pour rester informé des mises à jour logicielles à mesure de leur publication.
- La durée minimale d'un intervalle de maintenance est de six heures. Vous pouvez spécifier un intervalle plus long en fonction de la complexité de votre installation Distributed Cloud connecté et des besoins de votre entreprise.
- La fréquence minimale des mises à jour logicielles est d'une fois par semaine. Vous pouvez spécifier des intervalles de maintenance hebdomadaires ou quotidiens. Vous pouvez inclure et exclure des jours spécifiques.
- Vous pouvez modifier la planification de l'intervalle de maintenance d'un cluster à tout moment, sauf lorsqu'un intervalle de maintenance a déjà été planifié ou est en cours.
- Si la mise à jour logicielle ne se termine pas dans l'intervalle de temps spécifié, elle est mise en pause, puis reprend lors du prochain intervalle de maintenance planifié.
Pour obtenir des instructions détaillées, consultez Configurer un intervalle de maintenance pour un cluster.
Réparation du matériel défectueux
Lorsque Google détecte une défaillance du matériel Distributed Cloud connecté, nous effectuons l'une des opérations suivantes :
Pour le matériel Distributed Cloud appartenant à Google, Google tente de planifier une visite sur site dans les trois jours ouvrés. Pour qu'un technicien agréé par Google effectue les diagnostics et les réparations nécessaires, vous devez lui accorder l'accès au matériel Distributed Cloud connecté.
Pour le matériel Distributed Cloud appartenant au client, Google vous informe du problème. Vous devez collaborer avec l'intégrateur système qui vous a fourni votre matériel Distributed Cloud connecté pour planifier la visite d'un technicien et effectuer les diagnostics et les réparations nécessaires.
En cas de défaillance du matériel Distributed Cloud connecté, l'un des scénarios suivants s'applique selon que votre matériel Distributed Cloud connecté utilise ou non un stockage sur disque auto-chiffrant (SED, Self-Encrypting Disk) :
Les racks Distributed Cloud connecté stockent les données sur des disques non SED. Lorsque Google ou un intégrateur système partenaire de Google effectue des réparations sur site, tous les disques sont retirés de la machine Distributed Cloud connecté concernée avant le début de la maintenance et sont placés sous votre garde pendant la durée de la réparation.
Les serveurs Distributed Cloud connecté stockent les données sur des disques SED. En cas de défaillance d'une machine, Google ou un intégrateur système partenaire de Google remplace la machine entière. Avant que la machine ne soit retirée de vos locaux, Google s'assure que vos données ont été effacées de manière sécurisée de tous ses disques.
Autres points de défaillance
Vous êtes responsable de la maintenance des aspects suivants de votre installation Distributed Cloud qui échappent au contrôle de Google et peuvent affecter la disponibilité de Distributed Cloud connecté :
- Toutes les données que vous choisissez de stocker sur le matériel Distributed Cloud connecté. Cela inclut les sauvegardes redondantes fonctionnelles et l'exportation de vos données avant de renvoyer votre matériel Distributed Cloud connecté à Google.
- Alimentation électrique.
- Température ambiante, humidité et refroidissement.
- Sécurité physique du matériel.
- Sécurité du réseau local.
- Connectivité Internet et réseau local. Distributed Cloud connecté doit se reconnecter à Google Cloud tous les sept jours pour actualiser les jetons de sécurité et les clés de chiffrement, et synchroniser les données de journalisation et de gestion.