서비스 오류 이벤트 관리

Error Reporting을 사용하면 애플리케이션 비정상 종료를 자동으로 캡처하고 이러한 비정상 종료의 스택 트레이스를 오류 그룹으로 그룹화하여 애플리케이션 실패를 식별, 이해, 관리할 수 있습니다. Error Reporting 서비스 오류는 스택 트레이스가 아닌 오류 메시지로 실패 정보가 포함된 로그 항목을 작성할 때 Google Cloud 서비스에서 실패 정보를 자동으로 캡처합니다.

예를 들어 Cloud Run을 사용하고 요청을 실행할 때 최대 컨테이너 인스턴스 한도에 도달한다고 가정해 보겠습니다. 요청 실패는 로그 항목에 기록되고 Error Reporting은 이 오류 이벤트를 자동으로 캡처하고 유사한 오류 이벤트와 함께 그룹화하며 알림을 보냅니다. 서비스 관련 오류 이벤트를 해결하려면 Error Reporting 페이지에서 액세스할 수 있는 서비스별 문제 해결 문서를 사용하세요.

서비스 오류 그룹 보기

Google Cloud 콘솔에서 Error Reporting 페이지로 이동합니다.

Error Reporting으로 이동

검색창을 사용하여 이 페이지를 찾을 수도 있습니다.

Error Reporting에서 서비스 장애가 있다고 판단하면 이러한 오류 이벤트를 그룹화하고 오류 유형을 Service error로 설정합니다. Error Reporting 개요에는 오류 유형과 오류 그룹에 관한 기타 정보가 표시됩니다.

Error Reporting 개요 페이지

문서화된 솔루션이 있는 서비스 오류 이벤트의 경우 Error Reporting은Google Cloud 서비스에서 제공하는 문제 해결 가이드 링크를 제공합니다.

샘플 서비스 오류 이벤트

다음 표에는 Error Reporting의 서비스 오류가 캡처하는 오류 이벤트의 일부만 나와 있습니다.

Google Cloud 서비스 이름 오류 유형
Dataflow 작업자 로그 제한
메모리 부족(시스템)
커스텀 서브넷 누락
단계의 긴 작업
JRE 비정상 종료
잘못 구성된 작업자 JAR 파일
Cloud Run 메모리 한도 초과
사용 가능한 인스턴스 없음
Google Kubernetes Engine 비정상 pod, 실패한 프로브
Pod 예약 실패
백오프로 실패한 컨테이너 다시 시작
마운트 해제된 볼륨
컨테이너 이미지를 가져오지 못함
엔드포인트를 업데이트할 수 없음
Secrets/configmaps를 찾을 수 없음