데이터 상태 모니터링 대시보드 사용'

다음에서 지원:

이 문서에서는 구성된 모든 데이터 소스의 상태와 상태를 모니터링할 수 있는 Google Security Operations의 중앙 위치인 데이터 상태 모니터링 대시보드에 대해 설명합니다. 대시보드는 비정상적인 소스 및 로그 유형에 관한 중요한 정보를 제공하여 데이터 파이프라인 문제를 진단하고 해결하는 데 필요한 컨텍스트를 제공합니다.

데이터 상태 모니터링 대시보드에는 다음 정보가 포함됩니다.

  • 수집량 및 수집 상태
  • 원시 로그에서 통합 데이터 모델 (UDM) 이벤트로 파싱되는 볼륨입니다.
  • 컨텍스트와 추가 관련 정보 및 기능이 있는 인터페이스 링크
  • 비정상 및 실패한 소스 및 로그 유형입니다. 데이터 상태 모니터링 대시보드는 고객별로 불규칙성을 감지합니다. 30일의 회고 기간이 있는 통계적 방법을 사용하여 수집 데이터를 분석합니다. 비정상으로 표시된 항목은 Google SecOps에서 수집 및 처리되는 데이터의 급증 또는 급감을 나타냅니다.

주요 이점

데이터 상태 모니터링 대시보드를 사용하여 다음 작업을 할 수 있습니다.

  • 전반적인 데이터 상태를 한눈에 모니터링합니다. 각 피드, 데이터 소스, 로그 유형, 소스 (피드 ID)의 핵심 건강 상태와 관련 측정항목을 확인합니다.
  • 다음 항목의 집계된 데이터 상태 측정항목을 모니터링합니다.

    • 시간 경과에 따른 수집 및 파싱 (필터링된 대시보드로 연결되는 이벤트가 강조 표시됨, 반드시 비정상적인 것은 아님)
    • 이상치(현재 및 시간 경과에 따른 이상치)
  • 기간, 로그 유형 또는 피드로 필터링된 관련 대시보드에 액세스합니다.

  • 피드 구성에 액세스하여 문제를 수정하거나 해결합니다.

  • 파서 구성에 액세스하여 문제를 수정하거나 해결합니다.

  • 알림 설정 링크를 클릭하여 Cloud Monitoring 인터페이스를 열고 여기에서 상태 및 로그 볼륨 측정항목을 사용하여 맞춤 API 기반 알림을 구성합니다.

주요 질문

이 섹션에서는 인터페이스 섹션에 설명된 데이터 상태 모니터링 대시보드 구성요소와 매개변수를 참조합니다.

데이터 상태 모니터링 대시보드를 사용하여 데이터 파이프라인에 관한 다음과 같은 일반적인 주요 질문에 답변할 수 있습니다.

  • 내 로그가 Google SecOps에 도달하고 있나요?

    마지막 수집마지막 정규화 측정항목을 사용하여 로그가 Google SecOps에 도달하는지 확인할 수 있습니다. 이러한 측정항목은 데이터가 마지막으로 성공적으로 전송된 시간을 확인합니다. 또한 수집량 측정항목 (소스별 및 로그 유형별)은 수집되는 데이터의 양을 보여줍니다.

  • 로그가 올바르게 파싱되고 있나요?

    올바른 파싱을 확인하려면 마지막 정규화 측정항목을 확인하세요. 이 측정항목은 원시 로그에서 UDM 이벤트로의 마지막 성공적인 변환이 발생한 시간을 나타냅니다.

  • 인그레션 또는 파싱이 발생하지 않는 이유는 무엇인가요?

    문제 세부정보 열의 텍스트는 특정 문제를 식별하므로 조치가 가능 (직접 해결)한지 또는 불가능 (지원 필요)한지 파악하는 데 도움이 됩니다. Forbidden 403: Permission denied 텍스트는 피드 구성에 제공된 인증 계정에 필수 권한이 없는 실행 가능한 오류의 예입니다. Internal_error 텍스트는 조치를 취할 수 없는 오류의 예이며, 권장 조치는 Google SecOps에 지원 케이스를 여는 것입니다.

  • 수집된 로그와 파싱된 로그의 수에 큰 변화가 있나요?

    상태 필드에는 데이터 볼륨을 기준으로 데이터의 상태 (정상에서 실패까지)가 표시됩니다. 총 수집 및 파싱된 로그 그래프를 보면 갑작스럽거나 지속적인 급증 또는 급락을 확인할 수도 있습니다.

  • 소스가 실패하면 알림을 받으려면 어떻게 해야 하나요?

    데이터 상태 모니터링 대시보드는 상태 및 로그 볼륨 측정항목을 Cloud Monitoring에 제공합니다. 데이터 상태 모니터링 대시보드 표 중 하나에서 관련 알림 링크를 클릭하여 Cloud Monitoring 인터페이스를 엽니다. 여기에서 상태 및 로그 볼륨 측정항목을 사용하여 맞춤 API 기반 알림을 구성할 수 있습니다.

  • 로그 유형 수집의 지연을 추론하려면 어떻게 해야 하나요?

    마지막 이벤트 시간마지막 수집 시간 타임스탬프보다 크게 뒤처지면 지연이 표시됩니다. 데이터 상태 모니터링 대시보드는 로그 유형별로 마지막 수집~마지막 이벤트 시간 델타의 95th 백분위수를 표시합니다. 값이 높으면 Google SecOps 파이프라인 내 지연 시간 문제가 있음을 나타내고, 값이 정상이라면 소스에서 오래된 데이터를 푸시하고 있음을 나타낼 수 있습니다.

  • 최근에 구성이 변경되어 피드 오류가 발생했나요?

    Config Last Updated 타임스탬프가 Last Ingested 타임스탬프와 가까운 경우 최근 구성 업데이트가 실패의 원인일 수 있습니다. 이 상관관계는 근본 원인 분석에 도움이 됩니다.

  • 시간 경과에 따른 수집 및 파싱 상태는 어떤가요?

    총 수집 및 파싱된 로그 그래프는 데이터 상태의 이전 추세를 보여주므로 장기적인 패턴과 불규칙성을 관찰할 수 있습니다.

인터페이스

데이터 상태 모니터링 대시보드에는 다음 위젯이 표시됩니다.

  • 큰 숫자 위젯:

    • 정상: 비정상적인 부분이 없이 작동하는 데이터 소스 및 파서의 수입니다.
    • 실패: 즉각적인 주의가 필요한 데이터 소스의 수입니다.
    • 불규칙: 불규칙 데이터 소스 및 파서의 수입니다.
  • 총 수집 및 파싱된 로그: 시간 경과에 따른 파싱된 로그수집된 로그 일일 곡선을 보여주는 선 그래프입니다.

  • 데이터 소스별 건강 상태 표 - 다음 열이 포함됩니다.

    • 상태: 데이터 볼륨, 구성 오류, API 오류에서 파생된 피드의 누적 상태 (정상, 실패 또는 불규칙)입니다.
    • 소스 유형: 소스 유형(수집 메커니즘)입니다(예: 수집 API, 피드, 네이티브 Workspace 수집, Azure Event Hub 피드).
    • 이름: 피드 이름입니다.
    • 로그 유형: 로그 유형입니다(예: CS_EDR, UDM, GCP_CLOUDAUDIT, WINEVTLOG).
    • 문제 세부정보: 문제가 있는 경우 이 열에 로그 파싱 실패, 구성 사용자 인증 정보 문제, 정규화 문제와 같은 세부정보가 표시됩니다. 명시된 문제는 조치를 취할 수 있는 문제 (예: 잘못된 인증)일 수도 있고 조치를 취할 수 없는 문제 (예: Internal_error)일 수도 있습니다. 문제가 조치를 취할 수 없는 경우 Google SecOps에 지원 케이스를 여는 것이 좋습니다. 상태정상이면 값이 비어 있습니다.
    • 문제 기간: 데이터 소스가 비정상 또는 실패 상태인 기간(일)입니다. 상태정상이면 값이 비어 있습니다.
    • 마지막 수집: 마지막 데이터 수집의 타임스탬프입니다.
    • 마지막 처리: 마지막으로 성공한 처리의 타임스탬프입니다. 이 측정항목을 사용하여 로그가 Google SecOps에 도달하는지 확인합니다.
    • Config Last Updated(구성 최종 업데이트): 측정항목이 마지막으로 변경된 시간의 타임스탬프입니다. 이 값을 사용하여 구성 업데이트와 관찰된 불규칙성을 연관시켜 수집 문제 또는 파싱 문제의 근본 원인을 파악할 수 있습니다.
    • 수집 세부정보 보기: 추가적인 과거 정보가 포함된 다른 대시보드가 새 탭에서 열리는 링크로, 심층 분석에 유용합니다.
    • 데이터 소스 수정: 구성 관련 불규칙성을 수정할 수 있는 해당 피드 구성이 포함된 새 탭을 여는 링크입니다.
    • 알림 설정: 해당 Cloud Monitoring 인터페이스가 새 탭에서 열리는 링크입니다.
  • 파서별 상태 표 - 다음 열이 포함됩니다.

    • 상태: 정규화 비율에서 파생된 로그 유형의 누적 상태 (정상, 실패 또는 비정상)입니다.
    • 이름: 로그 유형입니다(예: DNS, USER, GENERIC, AZURE_AD, BIND_DNS, GCP SECURITYCENTER THREAT, WEBPROXY).
    • 문제 세부정보: 문제가 있는 경우 이 열에 파싱 문제에 관한 세부정보(예: 로그 파싱 실패, 구성 사용자 인증 정보 문제, 정규화 문제)가 표시됩니다. 명시된 문제는 조치를 취할 수 있는 문제 (예: 잘못된 인증)일 수도 있고 조치를 취할 수 없는 문제 (예: Internal_error)일 수도 있습니다. 문제가 조치를 취할 수 없는 경우 Google SecOps에 지원 케이스를 여는 것이 좋습니다. 상태정상이면 값이 비어 있습니다.
    • 문제 기간: 데이터 소스가 비정상 또는 실패 상태인 기간(일)입니다. 상태정상이면 값이 비어 있습니다.
    • 마지막 처리: 마지막으로 성공한 처리의 타임스탬프입니다. 이 측정항목을 사용하여 로그가 Google SecOps에 도달하는지 확인할 수 있습니다.
    • 마지막 이벤트 시간: 마지막으로 정규화된 로그의 이벤트 타임스탬프입니다.

    • Last Normalized(마지막 정규화): 로그 유형의 마지막 파싱 및 정규화 작업의 타임스탬프입니다. 이 측정항목을 사용하여 원시 로그가 UDM 이벤트로 성공적으로 변환되었는지 확인할 수 있습니다.

    • 구성 최종 업데이트: 측정항목이 마지막으로 변경된 시간의 타임스탬프입니다. 이 값을 사용하여 구성 업데이트와 관찰된 불규칙성을 연관시켜 수집 문제 또는 파싱 문제의 근본 원인을 파악할 수 있습니다.

    • 파싱 세부정보 보기: 추가적인 과거 정보가 포함된 다른 대시보드가 있는 새 탭을 여는 링크로, 심층 분석에 사용됩니다.

    • 파서 수정: 해당 파서 구성이 포함된 새 탭을 여는 링크입니다. 여기에서 구성 관련 불규칙성을 수정할 수 있습니다.

    • 알림 설정: 해당 Cloud Monitoring 인터페이스가 새 탭에서 열리는 링크입니다.

비정상 감지 엔진

데이터 상태 모니터링 대시보드는 Google SecOps 이상치 감지 엔진을 사용하여 데이터의 중요한 변화를 자동으로 식별하므로 잠재적인 문제를 신속하게 감지하고 해결할 수 있습니다.

데이터 수집 비정상 감지

Google SecOps는 정상적인 주간 패턴을 고려하면서 일일 볼륨 변화를 분석합니다.

이상 감지 엔진은 다음 계산을 사용하여 데이터 수집의 비정상적인 급증 또는 급락을 감지합니다.

  • 일별 및 주별 비교: Google SecOps는 당일과 전날의 수집량 차이와 당일과 지난 한 주의 평균 수집량 차이를 계산합니다.
  • 표준화: 이러한 변경사항의 중요성을 파악하기 위해 Google SecOps에서는 다음 z-점수 공식을 사용하여 변경사항을 표준화합니다.

    z = (xi − x_bar) / stdev

    각 항목의 의미는 다음과 같습니다.

    • z는 개별 차이의 표준화된 점수 (또는 z-점수)입니다.
    • xi은 개인 차이 값입니다.
    • x_bar는 차이의 평균입니다.
    • stdev는 차이의 표준 편차입니다.
  • 비정상 감지: 일별 및 주간 표준화된 변경사항이 모두 통계적으로 유의미한 경우 Google SecOps에서 비정상으로 표시합니다. 구체적으로 Google SecOps는 다음을 검색합니다.

    • 하락: 일일 및 주간 표준화된 차이가 모두 -1.645 미만입니다.
    • 급증: 일일 및 주간 표준화된 차이가 모두 1.645보다 큽니다.

정규화 비율

수집된 이벤트와 정규화된 이벤트의 비율을 계산할 때 이상 감지 엔진은 정규화 비율의 심각한 감소만 플래그가 지정되도록 결합된 접근 방식을 사용합니다. 비정상 감지 엔진은 다음 두 조건이 충족되는 경우에만 알림을 생성합니다.

  • 이전 날짜에 비해 정규화 비율이 통계적으로 유의미하게 감소했습니다.
  • 절대값으로도 0.05 이상의 큰 감소가 있습니다.

파싱 오류 불규칙성 감지

데이터 파싱 중에 발생하는 오류의 경우 이상치 감지 엔진은 비율 기반 방법을 사용합니다. 불규칙성 감지 엔진은 파서 오류의 비율이 수집된 총 이벤트 수에 비해 전날보다 5% 이상 증가하면 알림을 트리거합니다.

다음 단계

도움이 더 필요하신가요? 커뮤니티 회원 및 Google SecOps 전문가에게 문의하여 답변을 받으세요.