使用「資料健康狀態監控」資訊主頁

支援的國家/地區:

本文將說明 Data Health Monitoring 資訊主頁。這個資訊主頁是 Google Security Operations 的中心位置,可供您監控所有已設定資料來源的狀態和健康情況。這個資訊主頁會提供來源和記錄類型的重要資訊,協助您診斷及修正資料管道問題。

「資料健康狀態監控」資訊主頁包含下列資訊:

  • 擷取量和擷取健康狀態。
  • 將原始記錄剖析為統合式資料模型 (UDM) 事件的量。
  • 介面的背景資訊和連結,以及其他相關資訊和功能。
  • 失敗的來源和記錄類型。「資料健康狀態監控」資訊主頁會偵測每個客戶的失敗情況。

主要優點

您可以使用「資料健康狀態監控」資訊主頁執行下列操作:

  • 一眼掌握整體資料健康狀態。查看每個動態饋給、資料來源、記錄類型和來源 (即動態饋給 ID) 的核心健康狀態和相關指標。
  • 監控一段時間內擷取和剖析的匯總資料健康狀態指標,並醒目顯示連結至篩選資訊主頁的事件。
  • 存取相關資訊主頁,並依時間範圍、記錄類型或動態消息篩選。
  • 存取動態饋給設定,編輯及修正問題。
  • 存取剖析器設定,編輯及修正或解決問題。
  • 按一下「設定快訊」連結,開啟 Cloud Monitoring 介面,然後使用「狀態」和記錄檔容量指標,設定以 API 為準的自訂快訊。

重要問題

本節將說明「資料健康狀態監控」資訊主頁元件和參數,詳情請參閱「介面」一節。

您可以使用「資料健康狀態監控」資訊主頁,回答有關資料管道的下列典型重要問題:

  • 我的記錄是否已傳送至 Google SecOps?

    您可以使用「上次擷取」和「上次正規化」指標,確認記錄檔是否已傳送至 Google SecOps。這些指標會顯示上次成功傳送資料的時間。此外,擷取量指標 (依來源和記錄類型) 會顯示擷取的資料量。

  • 系統是否正確剖析我的記錄?

    如要確認剖析是否正確,請查看「上次正規化」指標。這項指標表示上次成功將原始記錄轉換為 UDM 事件的時間。

  • 為什麼系統沒有擷取或剖析資料?

    「最新問題詳細資料」欄中的文字會指出具體問題,協助你判斷該動作是可採取行動 (你可修正) 還是不可採取行動 (需要支援)。「Forbidden 403: Permission denied」(禁止 403:權限遭拒) 是可採取行動的錯誤範例,表示動態饋給設定中提供的驗證帳戶缺少必要權限。「Internal_error」Internal_error文字是無法採取行動的錯誤範例,建議您透過 Google SecOps 開啟支援案件。

  • 擷取和剖析的記錄數量是否大幅變動?

    「狀態」欄位會根據資料量顯示資料的健康狀態 (「正常」或「失敗」)。您也可以查看「Total Ingested Logs」(擷取的記錄總數) 圖表,找出突然或持續的暴增或暴跌情況。

  • 如何設定來源失敗通知?

    「資料健康狀態監控」資訊主頁會將「狀態」和記錄檔量指標饋送至 Cloud Monitoring。在其中一個「資料健康狀態監控」資訊主頁表格中,按一下相關的「快訊」連結,開啟 Cloud Monitoring 介面。您可以在該處使用「狀態」和記錄檔容量指標,設定以 API 為基礎的自訂快訊。

  • 如何推斷記錄類型擷取作業是否延遲?

    如果「上次事件時間」明顯晚於「上次擷取時間」時間戳記,即表示有延遲。「資料健康狀態監控」資訊主頁會顯示每種記錄類型「上次擷取時間」與「上次事件時間」差異的第 95 個百分位數th。如果值偏高,表示 Google SecOps 管道內有延遲問題;如果值正常,則可能表示來源正在推送舊資料。

  • 最近的設定變更是否導致動態饋給失敗?

    如果「設定上次更新時間」時間戳記接近「上次擷取時間」時間戳記,表示最近的設定更新可能是導致失敗的原因。這項關聯性有助於進行根本原因分析。

  • 一段時間內,擷取和剖析的健康狀態趨勢為何?

    「資料來源健康狀態總覽」、「剖析健康狀態總覽」和「擷取的記錄總數」圖表會顯示資料健康狀態的歷史趨勢,方便您觀察長期模式。

介面

如要開啟「資料健康狀態監控」資訊主頁,請按一下「資料健康狀態中心」

「資料健康狀態監控」資訊主頁是唯讀的預設資訊主頁,無法直接修改。如要自訂,請建立資訊主頁副本,然後修改副本,以符合特定用途。

「資料健康狀態監控」資訊主頁會顯示下列小工具:

  • 大字編號小工具:

    • 運作正常的來源:運作正常且未發生任何失敗的資料來源數量。
    • 失敗的來源:需要立即處理的資料來源數量。
    • 健康狀態良好的剖析器:執行時未發生任何失敗的剖析器數量。
    • 剖析器失敗:需要立即處理的剖析器數量。
  • 資料來源健康狀態總覽:折線圖,顯示一段時間內每天的「健康」和「嚴重」資料來源曲線。

  • 剖析健康狀態總覽:折線圖顯示一段時間內,每天的「健康」和「重大」剖析器曲線。

  • 擷取的記錄檔總數:折線圖,顯示一段時間內每天擷取的記錄檔數量。

  • 依記錄類型顯示剖析器失敗次數:這張折線圖會顯示每個剖析器在一段時間內,每天的健康狀態曲線。在此情況下,嚴重健康狀態是由於剖析成功率極低所致。

  • 「依資料來源顯示健康狀態」表格:包含下列資料欄:

    • 狀態:動態饋給的累計狀態 (「正常」或「失敗」),取決於資料量、設定錯誤和 API 錯誤。
    • 來源類型:來源類型 (擷取機制),例如 Ingestion API動態饋給原生 Workspace 擷取Azure Event Hub 動態饋給
    • 名稱:動態饋給名稱。
    • 記錄類型:記錄類型,例如 CS_EDRUDMGCP_CLOUDAUDITWINEVTLOG
    • 最新問題詳細資料:指定時間範圍內最新問題的詳細資料,例如「無法剖析記錄」、「設定憑證問題」或「正規化問題」。所述問題可能可採取行動 (例如「驗證錯誤」),也可能無法採取行動 (例如「Internal_error」)。如果問題無法解決,建議您向 Google SecOps 建立支援案件。如果在指定時間範圍內沒有任何問題,值會是空白或顯示「OK」
    • 問題持續時間:資料來源處於失敗狀態的天數。如果「狀態」為「正常」,則值為空白或顯示「不適用」
    • 上次收集時間:上次收集資料的時間戳記。
    • 上次擷取:上次成功擷取的時間戳記。使用這項指標判斷記錄檔是否已傳送至 Google SecOps。
    • 設定上次更新時間:指標上次變更的時間戳記。您可以使用這個值,將設定更新與觀察到的失敗情形相互關聯,協助判斷擷取或剖析問題的根本原因。
    • 查看擷取詳細資料:點選這個連結即可開啟新分頁,並顯示另一個資訊主頁,其中包含其他歷史資訊,方便您進行深入分析。
    • 編輯資料來源:這個連結會開啟新分頁,顯示相應的動態饋給設定,方便你修正設定相關錯誤。
    • 設定快訊:這個連結會開啟新分頁,並顯示對應的 Cloud Monitoring 介面。
  • 「依剖析器顯示的健康狀態」表格:包含下列資料欄:

    • 狀態:記錄類型的累計狀態 (「正常」或「失敗」)。
    • 剖析失敗率:未剖析的相應類型記錄檔百分比。
    • 記錄類型:記錄類型,例如 DNSUSERGENERICAZURE_ADBIND_DNSGCP SECURITYCENTER THREATWEBPROXY
    • 最新問題詳細資料:指定時間範圍內最新剖析問題的詳細資料,例如「剖析記錄失敗」、「設定憑證問題」或「正規化問題」。所述問題可能可採取行動 (例如「驗證錯誤」),也可能無法採取行動 (例如「Internal_error」)。如果問題無法解決,建議您向 Google SecOps 建立支援案件。如果指定時間範圍內沒有任何問題,值會是空白或顯示「OK」
    • 問題持續時間:資料來源處於失敗狀態的天數。如果「狀態」為「正常」,則值為空白。
    • 上次擷取:上次成功擷取的時間戳記。這項指標可用來判斷記錄是否已傳送至 Google SecOps。
    • 上次事件時間:上次標準化記錄的事件時間戳記。

    • 上次正規化:記錄類型上次剖析和正規化動作的時間戳記。您可以根據這項指標,判斷原始記錄是否已成功轉換為 UDM 事件

    • 設定上次更新時間:指標上次變更的時間戳記。您可以使用這個值,將設定更新與觀察到的失敗情形相互關聯,協助判斷擷取或剖析問題的根本原因。

    • 查看剖析詳細資料:這個連結會開啟新分頁,顯示另一個資訊主頁,其中包含其他歷史資訊,方便您進行深入分析。

    • 編輯剖析器:這個連結會開啟新分頁,顯示對應的剖析器設定,方便您修正設定相關錯誤。

    • 設定快訊:這個連結會開啟新分頁,並顯示對應的 Cloud Monitoring 介面。

異常偵測引擎

「資料健康狀態監控」資訊主頁會使用 Google SecOps 異常偵測引擎,自動找出資料的重大變化,讓您快速偵測及解決潛在問題。

資料擷取異常偵測

Google SecOps 會分析每日數量變化,同時考量正常的每週模式。

異常偵測引擎會使用下列計算方式,偵測資料擷取作業中異常的暴增或暴跌情況:

  • 每日和每週比較:Google SecOps 會計算當天與前一天的擷取量差異,以及當天與過去一週平均量的差異。
  • 標準化:為瞭解這些變更的重要性,Google SecOps 會使用下列 z 分數公式將變更標準化:

    z = (xi − x_bar) / stdev

    適用於

    • z 是個人差異的標準分數 (或 z 分數)
    • xi 是個別差異值
    • x_bar 是差異的平均值
    • stdev 是差異的標準差
  • 異常情況標記:如果每日和每週的標準化變化都具有統計顯著性,Google SecOps 就會標記異常情況。具體來說,Google SecOps 會搜尋:

    • 下降:每日和每週的標準化差異都小於 -1.645。
    • 急遽變化:每日和每週的標準化差異都大於 1.645。

正規化比率

計算擷取事件與正規化事件的比率時,異常偵測引擎會採用綜合方法,確保只標示正規化率大幅下降的情況。只有在符合下列兩項條件時,異常偵測引擎才會產生快訊:

  • 與前一天相比,標準化比率的統計顯著程度明顯下降。
  • 以絕對值來看,跌幅也相當顯著,幅度達 0.05 以上。

剖析錯誤異常偵測

如果資料剖析期間發生錯誤,異常狀況偵測引擎會使用比率法。如果剖析器錯誤占擷取事件總數的比例,比前一天增加 5 個百分點以上,異常偵測引擎就會觸發快訊。

後續步驟

還有其他問題嗎?向社群成員和 Google SecOps 專業人員尋求答案。