Bonnes pratiques concernant la disponibilité

Cette page décrit les bonnes pratiques à suivre pour assurer la haute disponibilité de votre installation connectée Google Distributed Cloud. Distributed Cloud Connected ne propose pas de contrat de niveau de service (SLA), mais uniquement l'objectif de niveau de service (SLO) décrit sur cette page.

Choisir et implémenter le niveau de disponibilité

Vous devez choisir le niveau de disponibilité pour vos charges de travail connectées au cloud distribué qui correspond le mieux aux besoins de votre entreprise. Par exemple, une application de caisse automatique dans un magasin présente un risque de disponibilité beaucoup plus faible qu'un déploiement RAN de périphérie d'un opérateur de réseau mobile.

La disponibilité cible est directement proportionnelle à la capacité de ressources de secours du cloud distribué que vous réservez pour les urgences. Le tableau suivant décrit cette relation. Ces estimations n'incluent pas les temps d'arrêt planifiés avec un intervalle de maintenance.

Le logiciel Distributed Cloud connecté consomme des ressources sur chaque machine physique. Le montant varie en fonction de la configuration spécifique de votre déploiement Distributed Cloud connecté. Google vous recommande de comparer votre déploiement Distributed Cloud connecté pour mesurer cette quantité et en tenir compte lorsque vous planifiez la distribution de votre charge de travail.

Facteur de forme GDC connecté Capacité utilisée Capacité réservée Disponibilité des cibles
Rack GDC connecté
(cluster unique de six machines)
83,33 % 16,67 % 99,9 %
Rack GDC connecté
(cluster unique de six machines)
100 % 0 % 93,5 %
Serveur connecté GDC
(cluster à trois machines)
66,6 % 33,3 % 99,9 %

Vous pouvez subir une perte soudaine de capacité en raison d'une défaillance matérielle ou d'un nœud nécessitant un redémarrage. Pour vous y préparer, vous devez concevoir vos charges de travail en tenant compte des quotas de ressources afin de toujours disposer de la capacité disponible sur chaque nœud connecté Distributed Cloud qui répond au niveau de disponibilité choisi.

Par exemple, pour atteindre une disponibilité cible de 99,9 % sur un déploiement de racks connectés à Distributed Cloud, vous devez configurer vos charges de travail de sorte que l'une des six machines physiques de chaque cluster connecté à Distributed Cloud soit disponible en tant que sauvegarde.

Diversifier géographiquement vos zones Distributed Cloud

Pour minimiser l'impact des éventuelles défaillances du plan de gestion, nous vous recommandons vivement de répartir vos zones Distributed Cloud sur plusieurs régions voisines.

Utiliser le mode Survie

Les clusters Distributed Cloud utilisent un plan de contrôle local qui s'exécute sur votre matériel Distributed Cloud connecté. Vos charges de travail continuent de s'exécuter lorsque la connexion à Google Cloud est perdue. Pour en savoir plus, consultez Mode de survie de l'infrastructure connectée du Cloud distribué.

Comprendre les mises à jour logicielles et les intervalles de maintenance

Google met régulièrement à jour le logiciel Distributed Cloud connecté. Ces mises à jour logicielles sont obligatoires et vous ne pouvez pas les désactiver. Distributed Cloud connected vous permet de spécifier des périodes de maintenance individuelles pour chacun de vos clusters Distributed Cloud connected.

Pour limiter les interruptions transitoires potentielles de vos charges de travail, les intervalles de maintenance vous permettent de contrôler le moment où les mises à niveau automatiques des plans de contrôle et des nœuds peuvent avoir lieu. Les intervalles de maintenance s'avèrent utiles dans certains types de scénarios, parmi lesquels :

  • Heures creuses : vous souhaitez réduire les risques de temps d'arrêt en planifiant des mises à jour automatiques pendant les heures creuses, lorsque le trafic est réduit.
  • Heures de travail : vous tenez à ce que les mises à niveau aient lieu pendant les heures de travail, afin que quelqu'un puisse les surveiller et gérer tout problème imprévu.
  • Mises à niveau multicluster : vous souhaitez déployer les mises à niveau sur plusieurs clusters situés dans différentes régions, à raison d'une à la fois et durant des intervalles spécifiés.

Distributed Cloud Connected accepte les types de périodes de maintenance suivants :

  • Intervalle de maintenance. Spécifie un intervalle de temps pendant lequel Google peut effectuer des opérations de maintenance et des mises à niveau logicielles sur votre cluster connecté Distributed Cloud.
  • Période d'exclusion de maintenance Spécifie un intervalle de temps pendant lequel Google ne peut pas effectuer de maintenance ni de mises à niveau logicielles sur votre cluster Distributed Cloud connecté. Pour configurer une période d'exclusion de maintenance, vous devez d'abord configurer un intervalle de maintenance. Une période d'exclusion de maintenance est prioritaire sur l'intervalle de maintenance du cluster.

En plus des mises à niveau automatiques, Google peut parfois avoir besoin d'effectuer d'autres tâches de maintenance. Dans ce cas, il respecte l'intervalle de maintenance d'un cluster dans la mesure du possible.

Si l'exécution des tâches dépasse l'intervalle de maintenance, Distributed Cloud Connected tente de les mettre en pause. Il tente ensuite de reprendre ces tâches lors du prochain intervalle de maintenance.

Distributed Cloud Connected se réserve le droit de déployer des mises à niveau d'urgence non planifiées en dehors des intervalles de maintenance. En outre, les mises à niveau obligatoires des logiciels obsolètes peuvent se produire automatiquement en dehors des intervalles de maintenance.

Vous pouvez également mettre à jour manuellement votre cluster à tout moment. Les mises à jour lancées manuellement commencent immédiatement et ignorent les intervalles de maintenance.

Pour savoir comment configurer un intervalle de maintenance pour un cluster nouveau ou existant, consultez Configurer un intervalle de maintenance.

Échelonnement des mises à jour logicielles

Pour réduire les temps d'arrêt des charges de travail, les mises à jour logicielles Distributed Cloud connecté sont échelonnées. En d'autres termes, Google met à niveau les nœuds de calcul de chaque cluster connecté Distributed Cloud par étapes. Tous les nœuds de calcul d'une étape de mise à niveau logicielle sont mis hors service simultanément.

Le nombre de nœuds dans une étape de mise à niveau logicielle est déterminé comme suit :

  • Déploiements de trois racks maximum : chaque étape correspond au nombre total de machines dans tous les racks divisé par 6 et arrondi à l'entier supérieur.
  • Déploiements de quatre racks ou plus : chaque étape correspond au nombre total de machines dans tous les racks du déploiement, divisé par le nombre de racks du déploiement.

Vous pouvez également définir votre propre taille d'étape de mise à niveau logicielle. En d'autres termes, vous pouvez spécifier le nombre de nœuds qui peuvent être mis hors service simultanément pour une mise à niveau logicielle dans un cluster Distributed Cloud connecté. Pour obtenir des instructions, consultez Gérer les temps d'arrêt des nœuds lors des mises à niveau logicielles.

Restrictions

Les intervalles de maintenance sont soumis aux restrictions suivantes :

  • Un seul intervalle de maintenance par cluster. Vous ne pouvez configurer qu'un seul intervalle de maintenance par cluster. La configuration d'un nouvel intervalle de maintenance remplace la configuration précédente.

  • Fuseaux horaires des intervalles de maintenance Lorsque vous configurez et affichez des intervalles de maintenance, les heures s'affichent différemment selon l'outil que vous utilisez, comme indiqué dans les sections suivantes.

Lors de la configuration des intervalles de maintenance

Si vous configurez un intervalle de maintenance à l'aide de l'option plus générique --maintenance-window, vous ne pouvez pas spécifier de fuseau horaire. Lorsque vous utilisez la Google Cloud CLI ou l'API, le fuseau horaire UTC est utilisé pour afficher les heures. La consoleGoogle Cloud utilise le fuseau horaire local pour afficher les heures.

Si vous utilisez des options plus précises, telles que --maintenance-window-start, vous pouvez spécifier le fuseau horaire dans la valeur. Si vous omettez le fuseau horaire, votre fuseau horaire local est utilisé. Les heures sont toujours stockées en temps UTC.

Lors de l'affichage des intervalles de maintenance

Lorsque vous affichez les informations sur votre cluster, les horodatages des intervalles de maintenance peuvent s'afficher en temps UTC ou dans votre fuseau horaire local, selon l'outil utilisé pour les consulter :

  • Si vous consultez les informations du cluster dans la console Google Cloud , les heures sont toujours affichées dans votre fuseau horaire local.
  • Lorsque vous utilisez la gcloud CLI pour afficher les informations de votre cluster, les heures sont toujours affichées en temps UTC.

Dans les deux cas, RRULE est toujours au format UTC. Cela signifie que si vous spécifiez, par exemple, les jours de la semaine, ces jours sont affichés au format UTC.

Configurer des intervalles de maintenance pour les clusters

Distributed Cloud Connected vous permet de spécifier une période de maintenance pour chacun de vos clusters Distributed Cloud Connected. Cette fenêtre indique à Google de ne mettre à jour le logiciel Distributed Cloud qu'à l'heure et à la fréquence que vous spécifiez.

Les règles suivantes régissent les périodes de maintenance des clusters connectés Distributed Cloud :

  • Si vous spécifiez une période de maintenance pour un cluster Distributed Cloud connecté, Google met à jour votre logiciel Distributed Cloud connecté 48 heures après l'annonce de la mise à jour dans les notes de version de Distributed Cloud connecté. Sur la page des notes de version, vous pouvez vous abonner au flux RSS des notes de version de Distributed Cloud Connected pour rester informé des mises à jour logicielles à mesure qu'elles sont publiées.
  • La durée minimale d'un intervalle de maintenance est de cinq heures. Vous pouvez spécifier une période plus longue en fonction de la complexité de votre installation Distributed Cloud connectée et de vos besoins commerciaux.
  • La fréquence minimale des mises à jour logicielles est d'une fois par semaine. Vous pouvez spécifier des intervalles de maintenance hebdomadaires ou quotidiens. Vous pouvez inclure et exclure des jours spécifiques.
  • Vous pouvez modifier la programmation de l'intervalle de maintenance d'un cluster à tout moment, sauf lorsqu'un intervalle de maintenance a déjà été programmé ou est en cours.
  • Si la mise à jour logicielle ne se termine pas dans le délai spécifié, elle est mise en pause, puis reprend lors du prochain intervalle de maintenance planifié.

Pour obtenir des instructions détaillées, consultez Configurer un intervalle de maintenance pour un cluster.

Réparation du matériel défectueux

Lorsque Google détecte une défaillance du matériel Distributed Cloud connecté, nous effectuons l'une des opérations suivantes :

  • Pour le matériel Distributed Cloud appartenant à Google, Google s'efforce de planifier une visite sur site dans un délai de trois jours ouvrés. Pour qu'un technicien agréé par Google puisse effectuer les diagnostics et les réparations nécessaires, vous devez lui accorder l'accès au matériel connecté Distributed Cloud.

  • Pour le matériel Distributed Cloud appartenant au client, Google vous informe du problème, ainsi que l'intégrateur système certifié par Google. Vous devez contacter l'intégrateur système qui vous a fourni votre matériel connecté Distributed Cloud pour planifier la visite d'un technicien et effectuer les diagnostics et réparations nécessaires.

En cas de défaillance du matériel connecté Distributed Cloud, l'un des scénarios suivants s'applique selon que votre matériel connecté Distributed Cloud utilise ou non un stockage SED (Self-Encrypting Disk) :

  • Les racks Distributed Cloud connecté stockent les données sur des disques non SED. Lorsque Google ou un intégrateur de systèmes certifié Google effectue des réparations sur site, tous les lecteurs de disque sont retirés de la machine Distributed Cloud connectée concernée avant le début de la réparation et sont placés sous votre responsabilité pendant toute la durée de la réparation.

  • Les serveurs connectés Distributed Cloud stockent les données sur des disques SED. Lorsqu'une machine tombe en panne, Google ou un intégrateur de systèmes certifié par Google la remplace entièrement. Avant que la machine ne soit retirée de vos locaux, Google s'assure que vos données ont été effacées de manière sécurisée de tous ses lecteurs.

Autres points de défaillance

Vous êtes responsable de la maintenance des aspects suivants de votre installation Distributed Cloud, qui sont hors du contrôle de Google et peuvent affecter la disponibilité de Distributed Cloud Connected :

  • Toutes les données que vous choisissez de stocker sur du matériel connecté au cloud distribué. Cela inclut des sauvegardes redondantes fonctionnelles et l'exportation de vos données avant de renvoyer votre matériel connecté Distributed Cloud à Google.
  • Alimentation électrique :
  • Température ambiante, humidité et refroidissement.
  • Sécurité physique du matériel :
  • Sécurité du réseau local
  • Connectivité au réseau local et à Internet. La connexion Distributed Cloud doit se reconnecter à Google Cloud tous les sept jours pour actualiser les jetons de sécurité et les clés de chiffrement, et synchroniser les données de journalisation et de gestion.

Étapes suivantes