Well-Architected Framework の信頼性の柱におけるこの原則は、 でワークロードに対して技術的に実現可能な信頼性の目標を定義するのに役立ちます。Google Cloud Google Cloud
この原則は、信頼性の スコープ設定 重点分野 に関連しています。
原則の概要
ユーザーが満足できるだけの信頼性を備えたシステムを設計します。直感に反するように思えるかもしれませんが、信頼性 100% を目標にすることは、多くの場合、最も効果的な戦略ではありません。信頼性を高めると、財務投資とイノベーションの潜在的な制限の両面で、コストが大幅に増加する可能性があります。ユーザーが現在のサービスレベルにすでに満足している場合、満足度をさらに高めるための取り組みは、投資収益率が低くなる可能性があります。代わりに、他の場所にリソースを有効に活用できます。
ユーザーが満足する信頼性のレベルを判断し、段階的な改善のコストがメリットを上回るポイントを特定する必要があります。このレベルの十分な 信頼性を判断したら、リソースを戦略的に割り当て、ユーザーに大きな価値を提供する機能と 改善に集中できます。
推奨事項
現実的な信頼性の目標を設定するには、次のサブセクションの推奨事項を検討してください。
一部の障害を受け入れ、コンポーネントの優先順位を付ける
稼働時間 99.99% などの高可用性を目指しますが、稼働時間 100% を目標に設定しないでください。一部の障害は避けられないことを認識してください。
稼働時間 100% と 99.99% の目標の差は、障害の許容範囲です。 この差は、多くの場合、 エラーバジェット と呼ばれます。エラーバジェットは、リスクを負ってイノベーションを行うのに役立ちます。これは、あらゆるビジネスが競争力を維持するために不可欠です。
システム内の最も重要なコンポーネントの信頼性を優先します。 重要度の低いコンポーネントでは、障害に対する許容度が高くなることを受け入れます。
信頼性と費用のバランスを取る
システムの最適な信頼性レベルを判断するには、徹底的な費用対効果分析を実施します。
システム要件、障害の影響、特定のアプリケーションに対する組織のリスク許容度などの要素を考慮してください。障害復旧指標(目標復旧時間(RTO)や目標復旧時点(RPO)など)を考慮することを忘れないでください。予算やその他の制約内で許容できる信頼性のレベルを決定します。
不可欠な信頼性機能を損なうことなく、効率を改善してコストを削減する方法を探します。