Google Distributed Cloud Connected 책임 공유

Google Distributed Cloud Connected 모니터링 및 유지관리는 Google과 고객의 공동 책임입니다. 이 문서의 정보를 사용하여 온프레미스 워크로드를 가장 효과적으로 배포하고 관리하는 방법을 알아보세요.

Google의 책임

관리형 하드웨어 및 소프트웨어 서비스로서 Google은 비즈니스 애플리케이션을 배포하는 데 사용하는 인프라를 관리하고 모니터링할 책임이 있습니다.

Google은 Distributed Cloud(연결형) 시스템의 다음 측면을 담당합니다.

  • Google Cloud 컨트롤 플레인
  • Kubernetes 컨트롤 플레인, 워커 노드, 내장 시스템 서비스
  • Google 제공 소프트웨어 부가기능 및 제품
  • 서버를 비롯한 제공된 하드웨어

Google은 Google이 담당하는 기능을 모니터링하고 문제가 발견되면 Google 엔지니어에게 알림을 보내 조사할 수 있도록 합니다.

고객의 책임

Distributed Cloud(연결형) 시스템의 다음 측면은 사용자가 책임집니다.

  • 고객이 제공한 스위치를 포함한 로컬 네트워크
  • 인터넷 연결
  • 출력
  • 환경(예: 냉각)
  • 고객 애플리케이션 및 고객이 설치한 Google Distributed Cloud 또는 Kubernetes 부가기능
  • 이러한 기능을 사용하는 경우 고객 소유 배스천 호스트 인스턴스 및 경계 프록시 배포

Google에서는 사용자의 책임인 문제를 직접 모니터링하지 않습니다. 예를 들어 Google은 고객 VM이 올바르게 부팅되지 않는지 또는 고객의 애플리케이션이 실행되지 않는지 모니터링하지 않습니다. 이러한 동작이 플랫폼 문제로 인한 것이라고 생각되면 Google에서 조사할 수 있도록 Google Cloud 지원 티켓을 열어야 합니다.

공유 책임

경우에 따라 Google에서 사이트 오류를 감지하지만 원인이 사이트 관련 문제이며 이는 사이트 소유자의 책임이라고 판단할 수 있습니다. 예를 들어 사이트의 모든 노드에서 시간이 지남에 따라 온도가 상승한 후 연결이 해제되는 경우 지역 냉각 실패가 문제일 수 있습니다. 이러한 시나리오에서 Google은 사이트별 고객 책임으로 인해 문제가 발생하는지 확인하고 하드웨어 장애를 검증하기 위해 고객과 공동 문제 해결을 시작합니다.

문제를 해결하고 근본 원인을 파악하기 위해 Google에서 사용자에게 정보를 요청하고 수신해야 할 수 있습니다. 예를 들어 Google은 전원 손실 시간과 전원 또는 네트워크가 복원된 시간을 알아야 할 수 있습니다. 이 정보를 제공할 수 없는 경우 Google에서 자세한 근본 원인 분석을 수행하지 못할 수 있습니다.

연결 실패

인터넷 연결 장애의 경우 제품은 최대 7일 동안 생존 모드를 지원합니다. 이 기간 동안 서비스에 대한 로컬 액세스가 가능합니다. 하지만 네트워크 연결이 복원될 때까지 Google에서 현장 시스템 문제를 모니터링, 완화 또는 진단할 수 없습니다.

Google은 Google 원격 분석 시스템에서 사이트 연결 해제를 모니터링하지만, 근본 원인이 전력인지, ISP 연결인지, 화재나 홍수와 같은 심각한 사이트 장애인지 원격으로 확인할 수는 없습니다.

사이트의 모든 하드웨어가 동시에 데이터 보고를 중지하면 로컬 전원 또는 네트워크 문제가 원인일 가능성이 높습니다. 오류 알림을 방지하기 위해 Google에서는 ISP 유지관리 등으로 인해 문제가 자동으로 해결되지 않고 가상으로 해결할 수 없음을 확인할 때까지 문제를 알리지 않을 수 있습니다. 이 경우 추가 문제 해결이 필요합니다.

바스티온 호스트 및 경계 프록시 (BH/BP)로 구성된 경우 Google은 주기적인 테스트 요청을 사용하여 BH/BP 및 BH/BP를 통해 연결된 분산 클라우드 기기를 통해 연결을 모니터링합니다. Google에서는 리소스 사용량을 추적하는 등 BH/BP 인스턴스의 전반적인 상태를 모니터링할 것을 기대합니다. BH/BP 또는 Distributed Cloud 연결 기기에 대한 연결 문제가 감지되고 고객 소유 구성요소에서 문제가 발생했을 수 있다고 의심되는 경우 문제를 진단하고 디버그하도록 요청할 수 있습니다.

디버깅

디버깅을 지원하기 위해 Google에서 다음 데이터를 요청할 수 있습니다.

  • 스위치, 라우터, 방화벽과 같은 Google 관리 네트워킹 장비가 아닌 장비에 적용된 구성 변경사항(가장 가까운 초 단위의 타임스탬프 포함)
  • 타임스탬프와 세부정보를 포함한 방화벽 거부 로그
  • 기기 재부팅 시간 및 이유 이유로는 소프트웨어 업그레이드, 전원 오류 또는 소프트웨어 오류가 있을 수 있습니다.
  • 건물 또는 데이터 센터 관리에서 알 수 있거나 다른 장비의 마지막 로그 메시지에서 추론할 수 있는 정전 시간
  • 네트워크 제공업체 또는 라우터나 방화벽의 로그 메시지를 기반으로 한 네트워크 중단 시간

상호 운용성 문제의 경우 Google에서 기기 로그 파일 공유 및 디버그 옵션 사용 설정 등 공급업체와의 공동 디버깅을 요구할 수도 있습니다. 가능한 경우 고객 실험실 환경에서 문제를 재현하려고 합니다.

경우에 따라 Google에서 관리 장비로부터 정보를 가져올 수 있지만 정보가 불완전할 수 있습니다. 예를 들어 정전 후 ISP 연결은 Distributed Cloud 연결 서버보다 부팅하는 데 시간이 오래 걸릴 수 있습니다.

책임 분담

다음 표를 사용하여 일반적인 작업을 누가 담당하는지 확인하세요.

작업 고객 Google
배포 연결 해제 문제를 식별하고 조사를 위해 고객 알림 제공 X
전원 문제 해결 X
고객이 제공한 스위치를 포함한 네트워크 문제를 해결합니다. X X
냉각과 같은 환경 문제 해결 X
배포된 경우 고객 소유 배스천 호스트 인스턴스 및 경계 프록시 배포 해결 X
API 관리 플레인 모니터링 X
Kubernetes 컨트롤 플레인, 워커 노드, 내장 시스템 서비스 모니터링 X
Google 제공 소프트웨어 부가기능 및 제품(예: Symcloud Storage) 모니터링 X
제공된 하드웨어(예: 서버, 일부 배포의 경우 네트워크 장비) 모니터링 X
고객 제공 네트워킹 장비 모니터링 X
업스트림 네트워크 연결 모니터링 X
네트워크 또는 환경 문제에 대한 공동 디버깅 지원 제공 X
측정항목 및 로그를 포함한 플랫폼 관측 가능성 X
측정항목 및 로그를 포함한 애플리케이션 관측 가능성 X
고객 책임에 있다고 생각되는 문제를 조사하라는 요청에 응답 X