데이터 상태 모니터링 대시보드 사용'
이 문서에서는 구성된 모든 데이터 소스의 상태와 상태를 모니터링할 수 있는 Google Security Operations의 중앙 위치인 데이터 상태 모니터링 대시보드에 대해 설명합니다. 대시보드는 비정상적인 소스 및 로그 유형에 관한 중요한 정보를 제공하여 데이터 파이프라인 문제를 진단하고 해결하는 데 필요한 컨텍스트를 제공합니다.
데이터 상태 모니터링 대시보드에는 다음 정보가 포함됩니다.
- 수집량 및 수집 상태
- 원시 로그에서 통합 데이터 모델 (UDM) 이벤트로 파싱되는 볼륨입니다.
- 컨텍스트와 추가 관련 정보 및 기능이 있는 인터페이스 링크
비정상 및 실패한 소스 및 로그 유형입니다. 데이터 상태 모니터링 대시보드는 고객별로 불규칙성을 감지합니다. 30일의 회고 기간이 있는 통계적 방법을 사용하여 수집 데이터를 분석합니다. 비정상으로 표시된 항목은 Google SecOps에서 수집 및 처리되는 데이터의 급증 또는 급감을 나타냅니다.
주요 이점
데이터 상태 모니터링 대시보드를 사용하여 다음 작업을 할 수 있습니다.
- 전반적인 데이터 상태를 한눈에 모니터링합니다. 각 피드, 데이터 소스, 로그 유형, 소스 (피드 ID)의 핵심 건강 상태와 관련 측정항목을 확인합니다.
다음 항목의 집계된 데이터 상태 측정항목을 모니터링합니다.
- 시간 경과에 따른 수집 및 파싱 (필터링된 대시보드로 연결되는 이벤트가 강조 표시됨, 반드시 비정상적인 것은 아님)
- 이상치(현재 및 시간 경과에 따른 이상치)
기간, 로그 유형 또는 피드로 필터링된 관련 대시보드에 액세스합니다.
피드 구성에 액세스하여 문제를 수정하거나 해결합니다.
파서 구성에 액세스하여 문제를 수정하거나 해결합니다.
알림 설정 링크를 클릭하여 Cloud Monitoring 인터페이스를 열고 여기에서 상태 및 로그 볼륨 측정항목을 사용하여 맞춤 API 기반 알림을 구성합니다.
주요 질문
이 섹션에서는 인터페이스 섹션에 설명된 데이터 상태 모니터링 대시보드 구성요소와 매개변수를 참조합니다.
데이터 상태 모니터링 대시보드를 사용하여 데이터 파이프라인에 관한 다음과 같은 일반적인 주요 질문에 답변할 수 있습니다.
내 로그가 Google SecOps에 도달하고 있나요?
마지막 수집 및 마지막 정규화 측정항목을 사용하여 로그가 Google SecOps에 도달하는지 확인할 수 있습니다. 이러한 측정항목은 데이터가 마지막으로 성공적으로 전송된 시간을 확인합니다. 또한 수집량 측정항목 (소스별 및 로그 유형별)은 수집되는 데이터의 양을 보여줍니다.
로그가 올바르게 파싱되고 있나요?
올바른 파싱을 확인하려면 마지막 정규화 측정항목을 확인하세요. 이 측정항목은 원시 로그에서 UDM 이벤트로의 마지막 성공적인 변환이 발생한 시간을 나타냅니다.
인그레션 또는 파싱이 발생하지 않는 이유는 무엇인가요?
문제 세부정보 열의 텍스트는 특정 문제를 식별하므로 조치가 가능 (직접 해결)한지 또는 불가능 (지원 필요)한지 파악하는 데 도움이 됩니다. Forbidden 403: Permission denied 텍스트는 피드 구성에 제공된 인증 계정에 필수 권한이 없는 실행 가능한 오류의 예입니다. Internal_error 텍스트는 조치를 취할 수 없는 오류의 예이며, 권장 조치는 Google SecOps에 지원 케이스를 여는 것입니다.
수집된 로그와 파싱된 로그의 수에 큰 변화가 있나요?
상태 필드에는 데이터 볼륨을 기준으로 데이터의 상태 (정상에서 실패까지)가 표시됩니다. 총 수집 및 파싱된 로그 그래프를 보면 갑작스럽거나 지속적인 급증 또는 급락을 확인할 수도 있습니다.
소스가 실패하면 알림을 받으려면 어떻게 해야 하나요?
데이터 상태 모니터링 대시보드는 상태 및 로그 볼륨 측정항목을 Cloud Monitoring에 제공합니다. 데이터 상태 모니터링 대시보드 표 중 하나에서 관련 알림 링크를 클릭하여 Cloud Monitoring 인터페이스를 엽니다. 여기에서 상태 및 로그 볼륨 측정항목을 사용하여 맞춤 API 기반 알림을 구성할 수 있습니다.
로그 유형 수집의 지연을 추론하려면 어떻게 해야 하나요?
마지막 이벤트 시간이 마지막 수집 시간 타임스탬프보다 크게 뒤처지면 지연이 표시됩니다. 데이터 상태 모니터링 대시보드는 로그 유형별로 마지막 수집~마지막 이벤트 시간 델타의 95th 백분위수를 표시합니다. 값이 높으면 Google SecOps 파이프라인 내 지연 시간 문제가 있음을 나타내고, 값이 정상이라면 소스에서 오래된 데이터를 푸시하고 있음을 나타낼 수 있습니다.
최근에 구성이 변경되어 피드 오류가 발생했나요?
Config Last Updated 타임스탬프가 Last Ingested 타임스탬프와 가까운 경우 최근 구성 업데이트가 실패의 원인일 수 있습니다. 이 상관관계는 근본 원인 분석에 도움이 됩니다.
시간 경과에 따른 수집 및 파싱 상태는 어떤가요?
총 수집 및 파싱된 로그 그래프는 데이터 상태의 이전 추세를 보여주므로 장기적인 패턴과 불규칙성을 관찰할 수 있습니다.
인터페이스
데이터 상태 모니터링 대시보드에는 다음 위젯이 표시됩니다.
큰 숫자 위젯:
- 정상: 비정상적인 부분이 없이 작동하는 데이터 소스 및 파서의 수입니다.
- 실패: 즉각적인 주의가 필요한 데이터 소스의 수입니다.
- 불규칙: 불규칙 데이터 소스 및 파서의 수입니다.
총 수집 및 파싱된 로그: 시간 경과에 따른 파싱된 로그 및 수집된 로그 일일 곡선을 보여주는 선 그래프입니다.
데이터 소스별 건강 상태 표 - 다음 열이 포함됩니다.
- 상태: 데이터 볼륨, 구성 오류, API 오류에서 파생된 피드의 누적 상태 (정상, 실패 또는 불규칙)입니다.
- 소스 유형: 소스 유형(수집 메커니즘)입니다(예: 수집 API, 피드, 네이티브 Workspace 수집, Azure Event Hub 피드).
- 이름: 피드 이름입니다.
- 로그 유형: 로그 유형입니다(예: CS_EDR, UDM, GCP_CLOUDAUDIT, WINEVTLOG).
- 문제 세부정보: 문제가 있는 경우 이 열에 로그 파싱 실패, 구성 사용자 인증 정보 문제, 정규화 문제와 같은 세부정보가 표시됩니다. 명시된 문제는 조치를 취할 수 있는 문제 (예: 잘못된 인증)일 수도 있고 조치를 취할 수 없는 문제 (예: Internal_error)일 수도 있습니다. 문제가 조치를 취할 수 없는 경우 Google SecOps에 지원 케이스를 여는 것이 좋습니다. 상태가 정상이면 값이 비어 있습니다.
- 문제 기간: 데이터 소스가 비정상 또는 실패 상태인 기간(일)입니다. 상태가 정상이면 값이 비어 있습니다.
- 마지막 수집: 마지막 데이터 수집의 타임스탬프입니다.
- 마지막 처리: 마지막으로 성공한 처리의 타임스탬프입니다. 이 측정항목을 사용하여 로그가 Google SecOps에 도달하는지 확인합니다.
- Config Last Updated(구성 최종 업데이트): 측정항목이 마지막으로 변경된 시간의 타임스탬프입니다. 이 값을 사용하여 구성 업데이트와 관찰된 불규칙성을 연관시켜 수집 문제 또는 파싱 문제의 근본 원인을 파악할 수 있습니다.
- 수집 세부정보 보기: 추가적인 과거 정보가 포함된 다른 대시보드가 새 탭에서 열리는 링크로, 심층 분석에 유용합니다.
- 데이터 소스 수정: 구성 관련 불규칙성을 수정할 수 있는 해당 피드 구성이 포함된 새 탭을 여는 링크입니다.
- 알림 설정: 해당 Cloud Monitoring 인터페이스가 새 탭에서 열리는 링크입니다.
파서별 상태 표 - 다음 열이 포함됩니다.
- 상태: 정규화 비율에서 파생된 로그 유형의 누적 상태 (정상, 실패 또는 비정상)입니다.
- 이름: 로그 유형입니다(예: DNS, USER, GENERIC, AZURE_AD, BIND_DNS, GCP SECURITYCENTER THREAT, WEBPROXY).
- 문제 세부정보: 문제가 있는 경우 이 열에 파싱 문제에 관한 세부정보(예: 로그 파싱 실패, 구성 사용자 인증 정보 문제, 정규화 문제)가 표시됩니다. 명시된 문제는 조치를 취할 수 있는 문제 (예: 잘못된 인증)일 수도 있고 조치를 취할 수 없는 문제 (예: Internal_error)일 수도 있습니다. 문제가 조치를 취할 수 없는 경우 Google SecOps에 지원 케이스를 여는 것이 좋습니다. 상태가 정상이면 값이 비어 있습니다.
- 문제 기간: 데이터 소스가 비정상 또는 실패 상태인 기간(일)입니다. 상태가 정상이면 값이 비어 있습니다.
- 마지막 처리: 마지막으로 성공한 처리의 타임스탬프입니다. 이 측정항목을 사용하여 로그가 Google SecOps에 도달하는지 확인할 수 있습니다.
마지막 이벤트 시간: 마지막으로 정규화된 로그의 이벤트 타임스탬프입니다.
Last Normalized(마지막 정규화): 로그 유형의 마지막 파싱 및 정규화 작업의 타임스탬프입니다. 이 측정항목을 사용하여 원시 로그가 UDM 이벤트로 성공적으로 변환되었는지 확인할 수 있습니다.
구성 최종 업데이트: 측정항목이 마지막으로 변경된 시간의 타임스탬프입니다. 이 값을 사용하여 구성 업데이트와 관찰된 불규칙성을 연관시켜 수집 문제 또는 파싱 문제의 근본 원인을 파악할 수 있습니다.
파싱 세부정보 보기: 추가적인 과거 정보가 포함된 다른 대시보드가 있는 새 탭을 여는 링크로, 심층 분석에 사용됩니다.
파서 수정: 해당 파서 구성이 포함된 새 탭을 여는 링크입니다. 여기에서 구성 관련 불규칙성을 수정할 수 있습니다.
알림 설정: 해당 Cloud Monitoring 인터페이스가 새 탭에서 열리는 링크입니다.
비정상 감지 엔진
데이터 상태 모니터링 대시보드는 Google SecOps 이상치 감지 엔진을 사용하여 데이터의 중요한 변화를 자동으로 식별하므로 잠재적인 문제를 신속하게 감지하고 해결할 수 있습니다.
데이터 수집 비정상 감지
Google SecOps는 정상적인 주간 패턴을 고려하면서 일일 볼륨 변화를 분석합니다.
이상 감지 엔진은 다음 계산을 사용하여 데이터 수집의 비정상적인 급증 또는 급락을 감지합니다.
- 일별 및 주별 비교: Google SecOps는 당일과 전날의 수집량 차이와 당일과 지난 한 주의 평균 수집량 차이를 계산합니다.
표준화: 이러한 변경사항의 중요성을 파악하기 위해 Google SecOps에서는 다음 z-점수 공식을 사용하여 변경사항을 표준화합니다.
z = (xi − x_bar) / stdev각 항목의 의미는 다음과 같습니다.
z는 개별 차이의 표준화된 점수 (또는 z-점수)입니다.xi은 개인 차이 값입니다.x_bar는 차이의 평균입니다.stdev는 차이의 표준 편차입니다.
비정상 감지: 일별 및 주간 표준화된 변경사항이 모두 통계적으로 유의미한 경우 Google SecOps에서 비정상으로 표시합니다. 구체적으로 Google SecOps는 다음을 검색합니다.
- 하락: 일일 및 주간 표준화된 차이가 모두 -1.645 미만입니다.
- 급증: 일일 및 주간 표준화된 차이가 모두 1.645보다 큽니다.
정규화 비율
수집된 이벤트와 정규화된 이벤트의 비율을 계산할 때 이상 감지 엔진은 정규화 비율의 심각한 감소만 플래그가 지정되도록 결합된 접근 방식을 사용합니다. 비정상 감지 엔진은 다음 두 조건이 충족되는 경우에만 알림을 생성합니다.
- 이전 날짜에 비해 정규화 비율이 통계적으로 유의미하게 감소했습니다.
- 절대값으로도 0.05 이상의 큰 감소가 있습니다.
파싱 오류 불규칙성 감지
데이터 파싱 중에 발생하는 오류의 경우 이상치 감지 엔진은 비율 기반 방법을 사용합니다. 불규칙성 감지 엔진은 파서 오류의 비율이 수집된 총 이벤트 수에 비해 전날보다 5% 이상 증가하면 알림을 트리거합니다.
다음 단계
도움이 더 필요하신가요? 커뮤니티 회원 및 Google SecOps 전문가에게 문의하여 답변을 받으세요.