Well-Architected Framework: 안정성 분야

Last reviewed 2024-12-30 UTC

Well-Architected Framework의 안정성 부문은 에서 안정적인 워크로드를 설계, 배포, 관리하는 데 도움이 되는 원칙과 권장사항을 제공합니다.Google Cloud Google Cloud

이 문서는 클라우드 설계자, 개발자, 플랫폼 엔지니어, 관리자, 사이트 안정성 엔지니어를 대상으로 합니다.

안정성 은 정의된 조건 내에서 의도된 기능을 일관되게 수행하고 중단 없는 서비스를 유지하는 시스템의 능력입니다. 안정성을 위한 권장사항에는 중복, 내결함성 설계, 모니터링, 자동화된 복구 프로세스가 포함됩니다.

안정성의 일부인 복원력은 성능을 유지하면서 장애 또는 예기치 않은 중단을 견디고 복구하는 시스템의 능력입니다.Google Cloud 다중 리전 배포, 자동 백업, 재해 복구 솔루션과 같은 기능은 시스템의 복원력을 개선하는 데 도움이 될 수 있습니다.

안정성은 다음과 같은 여러 가지 이유로 클라우드 전략에 중요합니다.

  • 최소한의 다운타임: 다운타임은 수익 손실, 생산성 저하, 평판 손상으로 이어질 수 있습니다. 복원력이 우수한 아키텍처는 장애 발생 시 시스템이 계속 작동하거나 장애로부터 효율적으로 복구할 수 있도록 지원합니다.
  • 향상된 사용자 경험: 사용자는 기술과의 원활한 상호작용을 기대합니다. 복원력이 우수한 시스템은 일관된 성능과 가용성을 유지하는 데 도움이 되며 수요가 많거나 예기치 않은 문제가 발생하더라도 안정적인 서비스를 제공합니다.
  • 데이터 무결성: 장애로 인해 데이터 손실 또는 데이터 손상이 발생할 수 있습니다. 복원력이 우수한 시스템은 백업, 중복, 복제와 같은 메커니즘을 구현하여 데이터를 보호하고 데이터의 정확성과 접근성을 유지합니다.
  • 비즈니스 연속성: 비즈니스는 중요한 운영을 위해 기술에 의존합니다. 복원력이 우수한 아키텍처는 대규모 장애 후에도 연속성을 보장하여 비즈니스 기능이 상당한 중단 없이 계속되고 신속한 복구를 지원할 수 있습니다.
  • 규정 준수: 많은 업계에서 시스템 가용성 및 데이터 보호에 관한 규제 요구사항을 적용하고 있습니다. 복원력이 우수한 아키텍처는 시스템이 계속 작동하고 안전하게 유지되도록 하여 이러한 표준을 충족하는 데 도움이 될 수 있습니다.
  • 장기 비용 절감: 복원력이 우수한 아키텍처에는 초기 투자가 필요하지만 복원력을 통해 비용이 많이 드는 다운타임을 방지하고, 사후 대응식 수정 작업을 피하고, 리소스를 더 효율적으로 사용할 수 있도록 하여 시간이 지남에 따라 비용을 절감할 수 있습니다.

조직의 사고방식

시스템을 안정적으로 만들려면 계획과 확립된 전략이 필요합니다. 이 전략에는 교육과 다른 이니셔티브와 함께 안정성의 우선순위를 지정할 수 있는 권한이 포함되어야 합니다.

개발, 제품 관리, 운영, 플랫폼 엔지니어링, 안정성을 비롯한 전체 조직이 사이트 안정성 엔지니어링 (SRE)을 책임진다는 명확한 기대를 설정합니다. 마케팅 및 영업과 같은 비즈니스 중심 그룹도 안정성에 영향을 미칠 수 있습니다.

모든 팀은 애플리케이션의 안정성 목표와 위험을 이해해야 합니다. 팀은 이러한 요구사항을 준수해야 합니다. 안정성과 일반 제품 기능 개발 간의 충돌은 우선순위를 지정하고 적절하게 에스컬레이션해야 합니다.

모든 기능과 팀에서 안정성을 전체적으로 계획하고 관리합니다. 안정성 부문이 포함된 Cloud Centre of Excellence (CCoE)를 설정하는 것이 좋습니다. 자세한 내용은 Cloud 핵심 전략팀으로 조직의 클라우드 여정 최적화를 참고하세요.

안정성을 위한 중점 영역

안정적인 시스템을 설계, 배포, 관리하기 위해 수행하는 활동은 다음과 같은 중점 영역으로 분류할 수 있습니다. 이 부문의 각 안정성 원칙과 권장사항은 이러한 중점 영역 중 하나와 관련이 있습니다.

  • 범위 지정: 시스템을 이해하려면 아키텍처에 대한 세부 분석을 수행합니다. 구성요소, 구성요소의 작동 방식 및 상호작용 방식, 데이터와 작업이 시스템을 통해 흐르는 방식, 발생할 수 있는 문제를 이해해야 합니다. 잠재적인 장애, 병목 현상, 위험을 식별하여 이러한 문제를 완화하기 위한 조치를 취할 수 있습니다.
  • 관찰: 시스템 장애를 방지하려면 포괄적이고 지속적인 관찰 및 모니터링을 구현합니다. 이러한 관찰을 통해 추세를 파악하고 잠재적인 문제를 사전에 식별할 수 있습니다.
  • 대응: 장애의 영향을 줄이려면 적절하게 대응하고 효율적으로 복구합니다. 자동화된 대응은 장애의 영향을 줄이는 데도 도움이 될 수 있습니다. 계획 및 제어를 사용하더라도 장애가 발생할 수 있습니다.
  • 학습: 장애가 재발하지 않도록 하려면 각 경험에서 배우고 적절한 조치를 취합니다.

핵심 원칙

Well-Architected Framework의 안정성 부문의 권장사항은 다음과 같은 핵심 원칙에 매핑됩니다.

참여자

저자:

기타 참여자: