Créer des systèmes à haute disponibilité grâce à la redondance des ressources

Last reviewed 2024-12-30 UTC

Ce principe du pilier "Fiabilité" du Google Cloud framework d'architecture fournit des recommandations pour planifier, créer et gérer la redondance des ressources, ce qui peut vous aider à éviter les défaillances.

Ce principe concerne le domaine d'intérêt de la délimitation de la fiabilité.

Présentation du principe

Une fois que vous avez déterminé le niveau de fiabilité dont vous avez besoin, vous devez concevoir vos systèmes de manière à éviter tout point de défaillance unique. Chaque composant critique du système doit être répliqué sur plusieurs machines, zones et régions. Par exemple, une base de données critique ne peut pas être située dans une seule région, et un serveur de métadonnées ne peut pas être déployé dans une seule zone ou région. Dans ces exemples, si la seule zone ou région est en panne, le système subit une panne globale.

Recommandations

Pour créer des systèmes redondants, tenez compte des recommandations des sous-sections suivantes.

Identifier les domaines de défaillance et répliquer les services

Cartographiez les domaines de défaillance de votre système, des VM individuelles aux régions, et concevez-les pour assurer la redondance entre les domaines de défaillance.

Pour garantir une haute disponibilité, distribuez et répliquez vos services et applications sur plusieurs zones et régions. Configurez le système pour qu'il bascule automatiquement afin de vous assurer que les services et les applications restent disponibles en cas de panne de zone ou de région.

Pour obtenir des exemples d'architectures multizones et multirégionales, consultez la section Concevoir une infrastructure fiable pour vos charges de travail dans Google Cloud.

Détecter et résoudre rapidement les problèmes

Surveillez en permanence l'état de vos domaines de défaillance pour détecter et résoudre rapidement les problèmes.

Vous pouvez surveiller l'état actuel des Google Cloud services dans toutes les régions à l'aide du Google Cloud tableau de bord Service Health. Vous pouvez également afficher les incidents pertinents pour votre projet à l'aide de Personalized Service Health. Vous pouvez utiliser des équilibreurs de charge pour détecter l'état des ressources et acheminer automatiquement le trafic vers des backends en bon état. Pour en savoir plus, consultez la section Présentation des vérifications d'état.

Tester les scénarios de basculement

Comme pour un exercice d'incendie, simulez régulièrement des défaillances pour valider l'efficacité de vos stratégies de réplication et de basculement.

Pour en savoir plus, consultez les sections Simuler une défaillance de zone pour un MIG régional et Simuler une défaillance de zone dans des clusters régionaux GKE.