Bonnes pratiques concernant la disponibilité

Cette page décrit les bonnes pratiques à suivre pour assurer la haute disponibilité de votre installation Google Distributed Cloud. Distributed Cloud ne propose pas de contrat de niveau de service (SLA), mais uniquement l'objectif de niveau de service (SLO) décrit sur cette page.

Choisir et implémenter le niveau de disponibilité

Vous devez choisir le niveau de disponibilité de vos charges de travail Distributed Cloud qui correspond le mieux aux exigences de votre entreprise. Par exemple, une application de caisse automatique dans un magasin présente un risque de disponibilité beaucoup plus faible qu'un déploiement RAN de périphérie d'un opérateur de réseau mobile.

La disponibilité cible est directement proportionnelle à la capacité de ressources de secours du cloud distribué que vous réservez pour les urgences. Le tableau suivant décrit cette relation. Ces estimations n'incluent pas les temps d'arrêt planifiés avec un intervalle de maintenance.

Le logiciel Distributed Cloud connecté consomme des ressources sur chaque machine physique. Le montant varie en fonction de la configuration spécifique de votre déploiement Distributed Cloud connecté. Google vous recommande de comparer votre déploiement Distributed Cloud connecté pour mesurer cette quantité et en tenir compte lorsque vous planifiez la distribution de votre charge de travail.

Facteur de forme de GDC Edge Capacité utilisée Capacité réservée Disponibilité des cibles
Rack GDC Edge
(cluster unique de six machines)
83,33 % 16,67 % 99,9 %
Rack GDC Edge
(cluster unique de six machines)
100 % 0 % 93,5 %
Serveur GDC Edge
(cluster unique de trois machines)
66,6 % 33,3 % 99,9 %

Vous pouvez subir une perte soudaine de capacité en raison d'une défaillance matérielle ou d'un nœud nécessitant un redémarrage. Pour vous y préparer, vous devez concevoir vos charges de travail en tenant compte des quotas de ressources afin de toujours disposer d'une capacité disponible sur chaque nœud Distributed Cloud qui répond au niveau de disponibilité choisi.

Par exemple, pour atteindre une disponibilité cible de 99,9 % sur un déploiement Distributed Cloud Rack, vous devez configurer vos charges de travail de sorte que l'une des six machines physiques de chaque cluster Distributed Cloud soit disponible en tant que sauvegarde.

Utiliser le mode Survie

Distributed Cloud vous permet de créer des clusters qui utilisent un plan de contrôle local s'exécutant sur votre matériel Distributed Cloud. Ces clusters permettent aux charges de travail de continuer à s'exécuter lorsque la connexion à Google Cloud est perdue. Pour en savoir plus, consultez Mode de survie Distributed Cloud.

Comprendre les mises à jour logicielles et les intervalles de maintenance

Google met régulièrement à jour le logiciel Distributed Cloud. Ces mises à jour logicielles sont obligatoires et vous ne pouvez pas les désactiver. Distributed Cloud vous permet de spécifier des périodes de maintenance individuelles pour chacun de vos clusters Distributed Cloud.

Pour limiter les interruptions transitoires potentielles de vos charges de travail, les intervalles de maintenance vous permettent de contrôler le moment où les mises à niveau automatiques des plans de contrôle et des nœuds peuvent avoir lieu. Les intervalles de maintenance s'avèrent utiles dans certains types de scénarios, parmi lesquels :

  • Heures creuses : vous souhaitez réduire les risques de temps d'arrêt en planifiant des mises à jour automatiques pendant les heures creuses, lorsque le trafic est réduit.
  • Heures de travail : vous tenez à ce que les mises à niveau aient lieu pendant les heures de travail, afin que quelqu'un puisse les surveiller et gérer tout problème imprévu.
  • Mises à niveau multicluster : vous souhaitez déployer les mises à niveau sur plusieurs clusters situés dans différentes régions, à raison d'une à la fois et durant des intervalles spécifiés.

En plus des mises à niveau automatiques, Google peut parfois avoir besoin d'effectuer d'autres tâches de maintenance. Dans ce cas, il respecte l'intervalle de maintenance d'un cluster dans la mesure du possible.

Si l'exécution des tâches dépasse l'intervalle de maintenance, Distributed Cloud tente de les mettre en pause. Il tente ensuite de reprendre ces tâches lors du prochain intervalle de maintenance.

Distributed Cloud se réserve le droit de déployer des mises à niveau d'urgence non planifiées en dehors des intervalles de maintenance. En outre, les mises à niveau obligatoires des logiciels obsolètes peuvent se produire automatiquement en dehors des intervalles de maintenance.

Vous pouvez également mettre à jour manuellement votre cluster à tout moment. Les mises à jour lancées manuellement commencent immédiatement et ignorent les intervalles de maintenance.

Pour savoir comment configurer un intervalle de maintenance pour un cluster nouveau ou existant, consultez Configurer un intervalle de maintenance.

Restrictions

Les intervalles de maintenance sont soumis aux restrictions suivantes :

  • Un seul intervalle de maintenance par cluster. Vous ne pouvez configurer qu'un seul intervalle de maintenance par cluster. La configuration d'un nouvel intervalle de maintenance remplace la configuration précédente.

  • Fuseaux horaires des intervalles de maintenance Lorsque vous configurez et affichez des intervalles de maintenance, les heures s'affichent différemment selon l'outil que vous utilisez, comme indiqué dans les sections suivantes.

Lors de la configuration des intervalles de maintenance

Si vous configurez un intervalle de maintenance à l'aide de l'option plus générique --maintenance-window, vous ne pouvez pas spécifier de fuseau horaire. Lorsque vous utilisez la Google Cloud CLI ou l'API, le fuseau horaire UTC est utilisé pour afficher les heures. La consoleGoogle Cloud utilise le fuseau horaire local pour afficher les heures.

Si vous utilisez des options plus précises, telles que --maintenance-window-start, vous pouvez spécifier le fuseau horaire dans la valeur. Si vous omettez le fuseau horaire, votre fuseau horaire local est utilisé. Les heures sont toujours stockées en temps UTC.

Lors de l'affichage des intervalles de maintenance

Lorsque vous affichez les informations sur votre cluster, les horodatages des intervalles de maintenance peuvent s'afficher en temps UTC ou dans votre fuseau horaire local, selon l'outil utilisé pour les consulter :

  • Si vous consultez les informations du cluster dans la console Google Cloud , les heures sont toujours affichées dans votre fuseau horaire local.
  • Lorsque vous utilisez la gcloud CLI pour afficher les informations de votre cluster, les heures sont toujours affichées en temps UTC.

Dans les deux cas, RRULE est toujours au format UTC. Cela signifie que si vous spécifiez, par exemple, les jours de la semaine, ces jours sont affichés au format UTC.

Configurer des intervalles de maintenance pour les clusters

Distributed Cloud vous permet de spécifier une période de maintenance pour chacun de vos clusters Distributed Cloud. Cette fenêtre indique à Google de ne mettre à jour le logiciel Distributed Cloud qu'à l'heure et à la fréquence que vous spécifiez.

Les règles suivantes régissent les périodes de maintenance des clusters Distributed Cloud :

  • Si vous spécifiez un intervalle de maintenance pour un cluster Distributed Cloud, Google met à jour votre logiciel Distributed Cloud 48 heures après l'annonce de la mise à jour dans les notes de version de Distributed Cloud. Sur la page des notes de version, vous pouvez vous abonner au flux RSS des notes de version de Distributed Cloud pour rester informé des mises à jour logicielles à mesure qu'elles sont publiées.
  • La durée minimale d'un intervalle de maintenance est de six heures. Vous pouvez spécifier une période plus longue en fonction de la complexité de votre installation Distributed Cloud et de vos besoins commerciaux.
  • La fréquence minimale des mises à jour logicielles est d'une fois par semaine. Vous pouvez spécifier des intervalles de maintenance hebdomadaires ou quotidiens. Vous pouvez inclure et exclure des jours spécifiques.
  • Vous pouvez modifier la programmation de l'intervalle de maintenance d'un cluster à tout moment, sauf lorsqu'un intervalle de maintenance a déjà été programmé ou est en cours.
  • Si la mise à jour logicielle ne se termine pas dans le délai spécifié, elle est mise en pause, puis reprend lors du prochain intervalle de maintenance planifié.

Pour obtenir des instructions détaillées, consultez Configurer un intervalle de maintenance pour un cluster.

Réparation du matériel défectueux

Lorsque Google détecte une défaillance du matériel Distributed Cloud, il tente de planifier une visite sur site dans les trois jours ouvrés. Pour qu'un technicien agréé par Google puisse effectuer les diagnostics et les réparations nécessaires, vous devez lui accorder l'accès au matériel Distributed Cloud.

En cas de défaillance du matériel Distributed Cloud, l'un des scénarios suivants s'applique selon que votre matériel Distributed Cloud utilise ou non un stockage SED (Self-Encrypting Disk) :

  • Les racks Distributed Cloud stockent les données sur des disques non SED. Lorsque Google effectue des réparations sur site, tous les lecteurs de disque sont retirés de la machine Distributed Cloud concernée avant le début de la réparation et sont placés sous votre responsabilité pendant toute la durée de la réparation.

  • Les serveurs Distributed Cloud stockent les données sur des disques SED. Lorsqu'une machine tombe en panne, Google la remplace entièrement. Avant que la machine ne soit retirée de vos locaux, Google s'assure que vos données ont été effacées de manière sécurisée de tous ses lecteurs.

Autres points de défaillance

Vous êtes responsable de la maintenance des aspects suivants de votre installation Distributed Cloud, qui sont hors du contrôle de Google et peuvent affecter la disponibilité de Distributed Cloud :

  • Toutes les données que vous choisissez de stocker sur le matériel Distributed Cloud. Cela inclut des sauvegardes redondantes fonctionnelles et l'exportation de vos données avant de renvoyer votre matériel Distributed Cloud à Google.
  • Alimentation électrique :
  • Température ambiante, humidité et refroidissement.
  • Sécurité physique du matériel :
  • Sécurité du réseau local
  • Connectivité au réseau local et à Internet :
    • Pour les clusters de plan de contrôle cloud, Distributed Cloud nécessite une connexion constante à Google Cloud et ne peut pas fonctionner sans elle.
    • Pour les clusters de plan de contrôle local, Distributed Cloud doit se reconnecter à Google Cloud tous les sept jours pour actualiser les jetons de sécurité et les clés de chiffrement, et synchroniser les données de journalisation et de gestion.

Étapes suivantes