使用「資料健康狀態監控」資訊主頁

支援的國家/地區:

本文將說明 Data Health Monitoring 資訊主頁。這個資訊主頁是 Google Security Operations 的中心位置,可供您監控所有已設定資料來源的狀態和健康情況。這個資訊主頁會提供異常來源和記錄類型的重要資訊,協助您診斷及修正資料管道問題。

「資料健康狀態監控」資訊主頁包含下列資訊:

  • 擷取量和擷取健康狀態。
  • 將原始記錄剖析為統合式資料模型 (UDM) 事件的量。
  • 介面的背景資訊和連結,以及其他相關資訊和功能。
  • 來源和記錄類型不規則且失敗。「資料健康狀態監控」資訊主頁會偵測每個客戶的異常狀況。這項功能會使用統計方法,並以 30 天的回溯期分析擷取資料。標示為「異常」的項目,表示 Google SecOps 擷取及處理的資料量突然增加或減少。

主要優點

您可以使用「資料健康狀態監控」資訊主頁執行下列操作:

  • 一眼掌握整體資料健康狀態。查看每個動態饋給、資料來源、記錄類型和來源 (即動態饋給 ID) 的核心健康狀態和相關指標。
  • 監控下列項目的匯總資料健康指標:

    • 一段時間內的擷取和剖析作業,並醒目顯示與已篩選資訊主頁連結的事件 (不一定是異常狀況)。
    • 異常情況 - 目前和一段時間內的異常情況。
  • 存取相關資訊主頁,並依時間範圍、記錄類型或動態消息篩選。

  • 存取動態饋給設定,編輯及修正問題。

  • 存取剖析器設定,編輯及修正或解決問題。

  • 按一下「設定快訊」連結,開啟 Cloud Monitoring 介面,然後使用「狀態」和記錄檔容量指標,設定以 API 為準的自訂快訊。

重要問題

本節將說明「資料健康狀態監控」資訊主頁元件和參數,詳情請參閱「介面」一節。

您可以使用「資料健康狀態監控」資訊主頁,回答有關資料管道的下列典型重要問題:

  • 我的記錄是否已傳送至 Google SecOps?

    您可以使用「上次擷取」和「上次正規化」指標,確認記錄檔是否已傳送至 Google SecOps。這些指標會顯示上次成功傳送資料的時間。此外,擷取量指標 (依來源和記錄類型) 會顯示擷取的資料量。

  • 系統是否正確剖析我的記錄?

    如要確認剖析是否正確,請查看「上次正規化」指標。這項指標表示上次成功將原始記錄轉換為 UDM 事件的時間。

  • 為什麼系統沒有擷取或剖析資料?

    「問題詳細資料」欄中的文字會指出具體問題,協助你判斷該動作是可採取行動 (由你修正) 還是不可採取行動 (需要支援)。「Forbidden 403: Permission denied」(禁止 403:權限遭拒) 是可採取行動的錯誤範例,表示動態饋給設定中提供的驗證帳戶缺少必要權限。「Internal_error」Internal_error文字是無法採取行動的錯誤範例,建議您透過 Google SecOps 開啟支援案件。

  • 擷取和剖析的記錄數量是否大幅變動?

    「狀態」欄位會根據資料量,顯示資料的健康狀態 (從「健康」到「失敗」)。您也可以查看「Total Ingested & Parsed Logs」(擷取及剖析的記錄總數) 圖表,找出突然或持續的暴增或暴跌情況。

  • 如何設定來源失敗通知?

    「資料健康狀態監控」資訊主頁會將「狀態」和記錄檔量指標饋送至 Cloud Monitoring。在其中一個「資料健康狀態監控」資訊主頁表格中,按一下相關的「快訊」連結,開啟 Cloud Monitoring 介面。您可以在該處使用「狀態」和記錄檔容量指標,設定以 API 為基礎的自訂快訊。

  • 如何推斷記錄類型擷取作業是否延遲?

    如果「上次事件時間」明顯晚於「上次擷取時間」時間戳記,即表示有延遲。「資料健康狀態監控」資訊主頁會顯示每種記錄類型「上次擷取時間」與「上次事件時間」差異的第 95 個百分位數th。如果值偏高,表示 Google SecOps 管道內有延遲問題;如果值正常,則可能表示來源正在推送舊資料。

  • 最近的設定變更是否導致動態饋給失敗?

    如果「設定上次更新時間」時間戳記接近「上次擷取時間」時間戳記,表示最近的設定更新可能是導致失敗的原因。這項關聯性有助於進行根本原因分析。

  • 一段時間內,擷取和剖析的健康狀態趨勢為何?

    「擷取及剖析的記錄總數」圖表會顯示資料健康狀態的歷史趨勢,方便您觀察長期模式和異常情況。

介面

「資料健康狀態監控」資訊主頁會顯示下列小工具:

  • 大字編號小工具:

    • 健康狀態良好:資料來源和剖析器數量,且沒有任何異常狀況。
    • 失敗:需要立即處理的資料來源數量。
    • 不規則:不規則資料來源和剖析器的數量。
  • 擷取及剖析的記錄檔總數:折線圖,顯示一段時間內每天的剖析記錄檔擷取記錄檔曲線。

  • 「依資料來源顯示健康狀態」表格:包含下列資料欄:

    • 狀態:動態饋給的累計狀態 (「正常」、「失敗」或「異常」),取決於資料量、設定錯誤和 API 錯誤。
    • 來源類型:來源類型 (擷取機制),例如 Ingestion API動態饋給原生 Workspace 擷取Azure Event Hub 動態饋給
    • 名稱:動態饋給名稱。
    • 記錄類型:記錄類型,例如 CS_EDRUDMGCP_CLOUDAUDITWINEVTLOG
    • 問題詳細資料:如有問題,這個資料欄會顯示詳細資料,例如「無法剖析記錄」、「設定憑證問題」或「正規化問題」。所述問題可能可採取行動 (例如「驗證錯誤」),也可能無法採取行動 (例如「Internal_error」)。如果問題無法解決,建議您向 Google SecOps 建立支援案件。如果「狀態」為「正常」,則值為空白。
    • 問題持續時間:資料來源處於異常或失敗狀態的天數。如果「狀態」為「正常」,則值為空白。
    • 上次收集時間:上次收集資料的時間戳記。
    • 上次擷取:上次成功擷取的時間戳記。使用這項指標判斷記錄檔是否已傳送至 Google SecOps。
    • 設定上次更新時間:指標上次變更的時間戳記。您可以根據這個值,將設定更新與觀察到的異常情況相互對照,找出擷取或剖析問題的根本原因。
    • 查看擷取詳細資料:點選這個連結即可開啟新分頁,並顯示另一個資訊主頁,其中包含其他歷史資訊,方便您進行深入分析。
    • 編輯資料來源:這個連結會開啟新分頁,顯示相應的動態饋給設定,方便你修正設定相關問題。
    • 設定快訊:這個連結會開啟新分頁,並顯示對應的 Cloud Monitoring 介面。
  • 「依剖析器顯示的健康狀態」表格:包含下列資料欄:

    • 狀態:記錄類型 (正常失敗異常) 的累計狀態,衍生自常態化比率
    • 名稱:記錄類型,例如 DNSUSERGENERICAZURE_ADBIND_DNSGCP SECURITYCENTER THREATWEBPROXY
    • 問題詳細資料:如有問題,這個資料欄會顯示剖析問題的詳細資料,例如「剖析記錄失敗」、「設定憑證問題」或「正規化問題」。所述問題可能可採取行動 (例如「驗證錯誤」),也可能無法採取行動 (例如「Internal_error」)。如果問題無法解決,建議您向 Google SecOps 建立支援案件。如果「狀態」為「正常」,則值為空白。
    • 問題持續時間:資料來源處於異常或失敗狀態的天數。如果「狀態」為「正常」,則值為空白。
    • 上次擷取:上次成功擷取的時間戳記。這項指標可用來判斷記錄是否已傳送至 Google SecOps。
    • 上次事件時間:上次標準化記錄的事件時間戳記。

    • 上次正規化:記錄類型上次剖析和正規化動作的時間戳記。您可以根據這項指標,判斷原始記錄是否已成功轉換為 UDM 事件

    • 設定上次更新時間:指標上次變更的時間戳記。您可以根據這個值,將設定更新與觀察到的異常情況相互對照,找出擷取或剖析問題的根本原因。

    • 查看剖析詳細資料:這個連結會開啟新分頁,顯示另一個資訊主頁,其中包含其他歷史資訊,方便您進行深入分析。

    • 編輯剖析器:這個連結會開啟新分頁,顯示對應的剖析器設定,方便您修正設定相關問題。

    • 設定快訊:這個連結會開啟新分頁,並顯示對應的 Cloud Monitoring 介面。

異常偵測引擎

「資料健康狀態監控」資訊主頁會使用 Google SecOps 異常偵測引擎,自動找出資料的重大變化,讓您快速偵測及解決潛在問題。

資料擷取異常偵測

Google SecOps 會分析每日數量變化,同時考量正常的每週模式。

異常偵測引擎會使用下列計算方式,偵測資料擷取作業中異常的暴增或暴跌情況:

  • 每日和每週比較:Google SecOps 會計算當天與前一天的擷取量差異,以及當天與過去一週平均量的差異。
  • 標準化:為瞭解這些變更的重要性,Google SecOps 會使用下列 z 分數公式將變更標準化:

    z = (xi − x_bar) / stdev

    適用於

    • z 是個人差異的標準分數 (或 z 分數)
    • xi 是個別差異值
    • x_bar 是差異的平均值
    • stdev 是差異的標準差
  • 異常情況標記:如果每日和每週的標準化變化都具有統計顯著性,Google SecOps 就會標記異常情況。具體來說,Google SecOps 會搜尋:

    • 下降:每日和每週的標準化差異都小於 -1.645。
    • 急遽變化:每日和每週的標準化差異都大於 1.645。

正規化比率

計算擷取事件與正規化事件的比率時,異常偵測引擎會採用綜合方法,確保只標示正規化率大幅下降的情況。只有在符合下列兩項條件時,異常偵測引擎才會產生快訊:

  • 與前一天相比,標準化比率的統計顯著程度明顯下降。
  • 以絕對值來看,跌幅也相當顯著,幅度達 0.05 以上。

剖析錯誤異常偵測

如果資料剖析期間發生錯誤,異常狀況偵測引擎會使用比率法。如果剖析器錯誤占擷取事件總數的比例,比前一天增加 5 個百分點以上,異常偵測引擎就會觸發快訊。

後續步驟

還有其他問題嗎?向社群成員和 Google SecOps 專業人員尋求答案。