使用“数据健康状况监控”信息中心

支持的平台:

本文档介绍了 Data Health Monitoring(数据健康状况监控)信息中心,您可以在 Google Security Operations 中通过该信息中心集中监控所有已配置数据源的状态和健康状况。该信息中心提供有关异常来源和日志类型的关键信息,可提供诊断和修复数据流水线问题所需的背景信息。

数据健康状况监控信息中心包含有关以下方面的信息:

  • 提取量和提取健康状况。
  • 将原始日志中的解析量转换为统一数据模型 (UDM) 事件
  • 上下文以及指向具有其他相关信息和功能的界面的链接。
  • 不规则和失败的来源和日志类型。数据健康状况监控信息中心会检测每个客户的数据异常情况。它使用统计方法,以 30 天的回溯期来分析提取数据。标记为不规律的项表示 Google SecOps 正在注入和处理的数据出现激增或下降。

主要优势

您可以使用数据健康状况监控信息中心执行以下操作:

  • 一目了然地监控整体数据健康状况。查看每个 Feed、数据源、日志类型和来源(即 Feed ID)的核心健康状况和相关指标。
  • 监控以下对象的汇总数据健康状况指标:

    • 随时间推移的提取和解析,其中突出显示了可链接到过滤后的信息中心的事件(不一定是异常情况)。
    • 异常情况 - 当前和随时间变化的异常情况。
  • 访问按时间范围、日志类型或 Feed 过滤的相关信息中心。

  • 访问 Feed 配置,以修改和修复问题。

  • 访问解析器配置以修改和修复问题。

  • 点击设置提醒链接以打开 Cloud Monitoring 界面,然后使用状态和日志量指标配置基于 API 的自定义提醒。

关键问题

本部分将介绍数据健康状况监控信息中心组件和参数,这些内容将在界面部分中进行说明。

您可以使用数据健康状况监控信息中心来回答有关数据流水线的以下典型关键问题:

  • 我的日志是否已到达 Google SecOps?

    您可以使用 Last IngestedLast Normalized 指标来验证日志是否已到达 Google SecOps。这些指标可确认上次成功传送数据的时间。此外,提取量指标(按来源和按日志类型)会显示提取的数据量。

  • 我的日志是否正在被正确解析?

    如需确认解析是否正确,请查看上次归一化指标。此指标表示上次成功将原始日志转换为 UDM 事件的时间。

  • 为什么没有发生提取或解析?

    问题详情列中的文字用于标识具体问题,可帮助您确定相应操作是可操作(您可以自行解决)还是不可操作(需要支持)。Forbidden 403: Permission denied 文本是一个可操作的错误示例,表示 Feed 配置中提供的授权账号缺少必需的权限。文本 Internal_error 是一个不可操作的错误示例,建议的操作是向 Google SecOps 提交支持请求。

  • 提取的日志数量和解析的日志数量是否发生了显著变化?

    状态字段会根据数据量显示数据的健康状况(从正常失败)。您还可以通过查看已提取和已解析的日志总数图表,识别突然或持续的激增或下降。

  • 如果来源出现故障,如何接收提醒?

    数据运行状况监控信息中心会将状态和日志量指标馈送到 Cloud Monitoring。在某个数据健康状况监控信息中心表格中,点击相关的提醒链接以打开 Cloud Monitoring 界面。您可以在此处使用状态和日志量指标配置基于 API 的自定义提醒。

  • 如何推断日志类型数据提取的延迟?

    如果上次事件时间明显晚于上次提取时间时间戳,则表示存在延迟。数据健康状况监控信息中心会显示每种日志类型的“上次提取时间”与“上次事件时间”差值的第 95 百分位数值。th如果该值较高,则表明 Google SecOps 流水线中存在延迟问题;如果该值正常,则可能表明来源正在推送旧数据。

  • 我最近的配置更改是否导致了 Feed 失败?

    如果配置上次更新时间时间戳与上次提取时间时间戳相近,则表明最近的配置更新可能是导致失败的原因。这种相关性有助于进行根本原因分析。

  • 提取和解析的健康状况随时间变化的趋势如何?

    提取和解析的日志总数图表显示了数据健康状况的历史趋势,让您可以观察长期模式和异常情况。

接口

数据健康状况监控信息中心会显示以下 widget:

  • 大数字微件:

    • 正常:运行正常的数据源和解析器数量。
    • 失败:需要立即注意的数据源数量。
    • 不规则:不规则数据源和解析器的数量。
  • 已提取和已解析的日志总数:折线图,显示随时间变化的已解析的日志已提取的日志每日曲线。

  • “按数据源划分的健康状况”表 - 包含以下列:

    • 状态:Feed 的累计状态(正常失败不规律),根据数据量、配置错误和 API 错误得出。
    • 来源类型:来源类型(数据注入机制),例如 Ingestion APIFeed原生 Workspace 注入Azure Event Hub Feed
    • 名称:Feed 名称。
    • 日志类型:日志类型,例如 CS_EDRUDMGCP_CLOUDAUDITWINEVTLOG
    • 问题详情:如果存在问题,此列会显示详情,例如日志解析失败配置凭据问题归一化问题。所报告的问题可以是可操作的(例如,Incorrect Auth),也可以是不可操作的(例如,Internal_error)。如果问题无法采取行动,建议您向 Google SecOps 提交支持请求。当状态正常时,该值为空。
    • 问题持续时间:数据源处于异常或失败状态的天数。当状态正常时,该值为空。
    • 上次收集时间:上次收集数据的时间戳。
    • 上次提取时间:上次成功提取的时间戳。使用此指标可确定日志是否已到达 Google SecOps。
    • 配置上次更新时间:指标上次更改的时间戳。您可以使用此值将配置更新与观察到的异常情况相关联,从而帮助您确定数据提取问题或解析问题的根本原因。
    • 查看提取详细信息:点击此链接会打开一个新标签页,其中包含另一个信息中心,其中包含更多历史信息,可用于更深入的分析。
    • 修改数据源:此链接会打开一个新标签页,其中包含相应的 Feed 配置,您可以在其中修正与配置相关的不规则之处。
    • 设置提醒:一个链接,点击后会在新标签页中打开相应的 Cloud Monitoring 界面。
  • 按解析器的健康状况表 - 包含以下各列:

    • 状态:日志类型的累计状态(正常失败不规律),源自归一化比率
    • 名称:日志类型,例如 DNSUSERGENERICAZURE_ADBIND_DNSGCP SECURITYCENTER THREATWEBPROXY
    • 问题详情:如果存在问题,此列会显示解析问题或问题的详细信息,例如日志解析失败配置凭据问题归一化问题。所报告的问题可以是可操作的(例如,Incorrect Auth),也可以是不可操作的(例如,Internal_error)。如果问题无法采取措施,建议您向 Google SecOps 提交支持请求。当状态正常时,该值为空。
    • 问题持续时间:数据源处于异常或失败状态的天数。当状态正常时,该值为空。
    • 上次提取时间:上次成功提取的时间戳。您可以使用此指标来确定日志是否已到达 Google SecOps。
    • Last Event Time:上次标准化日志的事件时间戳。

    • 上次归一化:相应日志类型的上次解析和归一化操作的时间戳。您可以使用此指标来确定原始日志是否已成功转换为 UDM 事件

    • 配置上次更新时间:指标上次更改的时间戳。您可以使用此值将配置更新与观察到的异常情况相关联,从而帮助您确定数据提取问题或解析问题的根本原因。

    • 查看解析详情:一个链接,点击后会打开一个新标签页,其中包含另一个信息中心,其中包含更多历史信息,可用于更深入的分析。

    • 修改解析器:一个链接,用于在新标签页中打开相应的解析器配置,您可以在其中修正与配置相关的异常情况。

    • 设置提醒:一个链接,点击后会打开一个新标签页,其中显示相应的 Cloud Monitoring 界面。

异常检测引擎

数据健康状况监控信息中心使用 Google SecOps 异常检测引擎自动识别数据中的重大变化,让您能够快速检测并解决潜在问题。

数据注入异常检测

Google SecOps 会分析每日数量变化,同时考虑正常的每周规律。

异常检测引擎使用以下计算来检测数据注入中的异常激增或下降:

  • 每日和每周比较:Google SecOps 会计算当前与前一天的数据提取量之差,以及当前与过去一周的平均数据提取量之差。
  • 标准化:为了解这些变化的重要性,Google SecOps 使用以下 z 分数公式对这些变化进行标准化处理:

    z = (xi − x_bar) / stdev

    其中

    • z 是个体差异的标准化得分(或 z 得分)
    • xi 是个体差异值
    • x_bar 是差值的平均值
    • stdev 是差值的标准差
  • 异常标记:如果每日和每周标准化变化均具有统计显著性,Google SecOps 会标记异常。具体而言,Google SecOps 会搜索以下内容:

    • 降幅:日标准化差异和周标准化差异均小于 -1.645。
    • 激增:日标准化差值和周标准化差值均大于 1.645。

归一化比率

在计算提取的事件与标准化事件的比率时,异常检测引擎会采用组合方法,以确保仅标记标准化率的显著下降。只有在同时满足以下两个条件时,异常检测引擎才会生成提醒:

  • 与前一天相比,归一化比率出现了具有统计显著性的下降。
  • 从绝对值来看,降幅也很大,达到 0.05 或更高。

解析错误异常检测

对于数据解析期间发生的错误,异常检测引擎会使用基于比率的方法。如果解析器错误占提取事件总数的比例与前一天相比增加了 5 个百分点或更多,异常检测引擎就会触发提醒。

后续步骤

需要更多帮助?获得社区成员和 Google SecOps 专业人士的解答。