Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Well-Architected Framework: pilier de fiabilité

Last reviewed 2024-12-30 UTC

Le pilier de fiabilité du Google Cloud Well-Architected Framework fournit des principes et des recommandations pour vous aider à concevoir, déployer et gérer des charges de travail fiables dans Google Cloud.

Ce document est destiné aux architectes cloud, aux développeurs, aux ingénieurs de plate-forme, aux administrateurs et aux ingénieurs en fiabilité des sites.

La fiabilité est la capacité d'un système à exécuter de manière cohérente les fonctions prévues dans les conditions définies et à maintenir un service ininterrompu. Les bonnes pratiques en matière de fiabilité incluent la redondance, la conception tolérante aux pannes, la surveillance et les processus de récupération automatisés.

Dans le cadre de la fiabilité, la résilience est la capacité du système à résister aux pannes ou aux perturbations inattendues et à s' en remettre, tout en maintenant ses performances. Google Cloud Les fonctionnalités telles que les déploiements multirégionaux, les sauvegardes automatisées et les solutions de reprise après sinistre peuvent vous aider à améliorer la résilience de votre système.

La fiabilité est importante pour votre stratégie cloud pour de nombreuses raisons, y compris les suivantes :

Temps d'arrêt minimal : les temps d'arrêt peuvent entraîner des pertes de revenus, une baisse de la productivité et une dégradation de la réputation. Les architectures résilientes peuvent vous aider à garantir que les systèmes continuent de fonctionner en cas de panne ou à se remettre efficacement de ces pannes.
Expérience utilisateur améliorée : les utilisateurs s'attendent à des interactions fluides avec la technologie. Les systèmes résilients peuvent vous aider à maintenir des performances et une disponibilité cohérentes, et à fournir un service fiable, même en cas de forte demande ou de problèmes inattendus.
Intégrité des données : les pannes peuvent entraîner une perte ou une corruption des données. Les systèmes résilients mettent en œuvre des mécanismes tels que les sauvegardes, la redondance et la réplication pour protéger les données et s'assurer qu'elles restent exactes et accessibles.
Continuité des activités : votre entreprise s'appuie sur la technologie pour les opérations critiques. Les architectures résilientes peuvent vous aider à assurer la continuité après une panne catastrophique, ce qui permet aux fonctions de l'entreprise de se poursuivre sans interruption significative et de se rétablir rapidement.
Conformité : de nombreux secteurs sont soumis à des exigences réglementaires en matière de disponibilité des systèmes et de protection des données. Les architectures résilientes peuvent vous aider à respecter ces normes en veillant à ce que les systèmes restent opérationnels et sécurisés.
Réduction des coûts à long terme : les architectures résilientes nécessitent un investissement initial, mais la résilience peut vous aider à réduire les coûts au fil du temps en évitant les temps d'arrêt coûteux, les correctifs réactifs et en permettant une utilisation plus efficace des ressources.

Mentalité organisationnelle

Pour rendre vos systèmes fiables, vous avez besoin d'un plan et d'une stratégie établie. Cette stratégie doit inclure une formation et l'autorité nécessaire pour hiérarchiser la fiabilité par rapport à d'autres initiatives.

Définissez clairement que l'ensemble de l'organisation est responsable de la fiabilité, y compris les équipes de développement, de gestion des produits, d'opérations, d'ingénierie de plate-forme et d'ingénierie en fiabilité des sites (SRE). Même les groupes axés sur l'activité, comme le marketing et les ventes, peuvent avoir une incidence sur la fiabilité.

Chaque équipe doit comprendre les cibles de fiabilité et les risques de ses applications. Les équipes doivent être responsables de ces exigences. Les conflits entre la fiabilité et le développement régulier des fonctionnalités produit doivent être hiérarchisés et être remontés en conséquence.

Planifiez et gérez la fiabilité de manière globale, dans toutes vos fonctions et équipes. Envisagez de créer un centre d'excellence cloud (CCoE) qui inclut un pilier de fiabilité. Pour en savoir plus, consultez Optimiser le parcours cloud de votre organisation avec un centre d'excellence cloud.

Points abordés pour la fiabilité

Les activités que vous effectuez pour concevoir, déployer et gérer un système fiable peuvent être classées dans les points abordés suivants. Chacun des principes et recommandations de fiabilité de ce pilier est pertinent pour l'un de ces points abordés.

Définition du champ d'application : pour comprendre votre système, effectuez une analyse détaillée de son architecture. Vous devez comprendre les composants, leur fonctionnement et leurs interactions, le flux de données et d'actions dans le système, et ce qui pourrait mal se passer. Identifiez les pannes, les goulots d'étranglement et les risques potentiels, ce qui vous aidera à prendre des mesures pour atténuer ces problèmes.
Observation : pour éviter les pannes du système, mettez en œuvre une observation et une surveillance complètes et continues. Grâce à cette observation, vous pouvez comprendre les tendances et identifier les problèmes potentiels de manière proactive.
Réponse : pour réduire l'impact des pannes, répondez de manière appropriée et récupérez efficacement. Les réponses automatisées peuvent également vous aider à réduire l'impact des pannes. Même avec une planification et des contrôles, des pannes peuvent toujours se produire.
Apprentissage : pour éviter que les pannes ne se reproduisent, tirez les leçons de chaque expérience et prenez les mesures appropriées.

Principes de base

Les recommandations du pilier de fiabilité du Well-Architected Framework sont associées aux principes de base suivants :

Contributeurs

Auteurs :

Laura Hyatt | ingénieur client, FSI
Jose Andrade | Ingénieur client, spécialiste SRE
Gino Pelliccia | Architecte principal

Autres contributeurs :

Andrés-Leonardo Martínez-Ortiz | Responsable de programme technique
Brian Kudzia | Ingénieur client en infrastructure d'entreprise
Daniel Lees | Architecte en sécurité cloud
Dr Filipe Gracio | Ingénieur client, spécialiste en IA/ML
Gary Harmson | Architecte principal
Kumar Dhanagopal | Développeur de solutions multiproduits
Marwan Al Shawi | Partner Customer Engineer
Nicolas Pintaux | Ingénieur client, spécialiste de la modernisation des applications
Radhika Kanakam | Responsable de programme, Google Cloud Well-Architected Framework
Ryan Cox | Architecte principal
Samantha He | Rédactrice technique
Wade Holmes | Directeur des solutions mondiales
Zach Seils | Spécialiste en gestion des réseaux

définissent la fiabilité en fonction des objectifs d'expérience utilisateur ;