本頁面由 Cloud Translation API 翻譯而成。

使用「資料健康狀態監控」資訊主頁

支援的國家/地區：

Google SecOps SIEM

本文將說明 Data Health Monitoring 資訊主頁。這個資訊主頁是 Google Security Operations 的中心位置，可供您監控所有已設定資料來源的狀態和健康情況。這個資訊主頁會提供來源和記錄類型的重要資訊，協助您診斷及修正資料管道問題。

「資料健康狀態監控」資訊主頁包含下列資訊：

擷取量和擷取健康狀態。
將原始記錄剖析為統合式資料模型 (UDM) 事件的量。
介面的背景資訊和連結，以及其他相關資訊和功能。
失敗的來源和記錄類型。「資料健康狀態監控」資訊主頁會偵測每個客戶的失敗情況。

主要優點

您可以使用「資料健康狀態監控」資訊主頁執行下列操作：

一眼掌握整體資料健康狀態。查看每個動態饋給、資料來源、記錄類型和來源 (即動態饋給 ID) 的核心健康狀態和相關指標。
監控一段時間內擷取和剖析的匯總資料健康狀態指標，並醒目顯示連結至篩選資訊主頁的事件。
存取相關資訊主頁，並依時間範圍、記錄類型或動態消息篩選。
存取動態饋給設定，編輯及修正問題。
存取剖析器設定，編輯及修正或解決問題。
按一下「設定快訊」連結，開啟 Cloud Monitoring 介面，然後使用「狀態」和記錄檔容量指標，設定以 API 為準的自訂快訊。

重要問題

本節將說明「資料健康狀態監控」資訊主頁元件和參數，詳情請參閱「介面」一節。

您可以使用「資料健康狀態監控」資訊主頁，回答有關資料管道的下列典型重要問題：

我的記錄是否已傳送至 Google SecOps？

您可以使用「上次擷取」和「上次正規化」指標，確認記錄檔是否已傳送至 Google SecOps。這些指標會顯示上次成功傳送資料的時間。此外，擷取量指標 (依來源和記錄類型) 會顯示擷取的資料量。
系統是否正確剖析我的記錄？

如要確認剖析是否正確，請查看「上次正規化」指標。這項指標表示上次成功將原始記錄轉換為 UDM 事件的時間。
為什麼系統沒有擷取或剖析資料？

「最新問題詳細資料」欄中的文字會指出具體問題，協助你判斷該動作是可採取行動 (你可修正) 還是不可採取行動 (需要支援)。「Forbidden 403: Permission denied」(禁止 403：權限遭拒) 是可採取行動的錯誤範例，表示動態饋給設定中提供的驗證帳戶缺少必要權限。「Internal_error」Internal_error文字是無法採取行動的錯誤範例，建議您透過 Google SecOps 開啟支援案件。
擷取和剖析的記錄數量是否大幅變動？

「狀態」欄位會根據資料量顯示資料的健康狀態 (「正常」或「失敗」)。您也可以查看「Total Ingested Logs」(擷取的記錄總數) 圖表，找出突然或持續的暴增或暴跌情況。
如何設定來源失敗通知？

「資料健康狀態監控」資訊主頁會將「狀態」和記錄檔量指標饋送至 Cloud Monitoring。在其中一個「資料健康狀態監控」資訊主頁表格中，按一下相關的「快訊」連結，開啟 Cloud Monitoring 介面。您可以在該處使用「狀態」和記錄檔容量指標，設定以 API 為基礎的自訂快訊。
如何推斷記錄類型擷取作業是否延遲？

如果「上次事件時間」明顯晚於「上次擷取時間」時間戳記，即表示有延遲。「資料健康狀態監控」資訊主頁會顯示每種記錄類型「上次擷取時間」與「上次事件時間」差異的第 95 個百分位數^th。如果值偏高，表示 Google SecOps 管道內有延遲問題；如果值正常，則可能表示來源正在推送舊資料。
最近的設定變更是否導致動態饋給失敗？

如果「設定上次更新時間」時間戳記接近「上次擷取時間」時間戳記，表示最近的設定更新可能是導致失敗的原因。這項關聯性有助於進行根本原因分析。
一段時間內，擷取和剖析的健康狀態趨勢為何？

「資料來源健康狀態總覽」、「剖析健康狀態總覽」和「擷取的記錄總數」圖表會顯示資料健康狀態的歷史趨勢，方便您觀察長期模式。

介面

如要開啟「資料健康狀態監控」資訊主頁，請按一下「資料健康狀態中心」。

「資料健康狀態監控」資訊主頁是唯讀的預設資訊主頁，無法直接修改。如要自訂，請建立資訊主頁副本，然後修改副本，以符合特定用途。

「資料健康狀態監控」資訊主頁會顯示下列小工具：

大字編號小工具：
- 運作正常的來源：運作正常且未發生任何失敗的資料來源數量。
- 失敗的來源：需要立即處理的資料來源數量。
- 健康狀態良好的剖析器：執行時未發生任何失敗的剖析器數量。
- 剖析器失敗：需要立即處理的剖析器數量。
資料來源健康狀態總覽：折線圖，顯示一段時間內每天的「健康」和「嚴重」資料來源曲線。
剖析健康狀態總覽：折線圖顯示一段時間內，每天的「健康」和「重大」剖析器曲線。
擷取的記錄檔總數：折線圖，顯示一段時間內每天擷取的記錄檔數量。

注意： 部分擷取的記錄會對應至多個標準化記錄。剖析的記錄總數可能會高於擷取的記錄總數。
依記錄類型顯示剖析器失敗次數：這張折線圖會顯示每個剖析器在一段時間內，每天的健康狀態曲線。在此情況下，嚴重健康狀態是由於剖析成功率極低所致。
「依資料來源顯示健康狀態」表格：包含下列資料欄：
- 狀態：動態饋給的累計狀態 (「正常」或「失敗」)，取決於資料量、設定錯誤和 API 錯誤。
- 來源類型：來源類型 (擷取機制)，例如 Ingestion API、動態饋給、原生 Workspace 擷取或 Azure Event Hub 動態饋給。
- 名稱：動態饋給名稱。
- 記錄類型：記錄類型，例如 CS_EDR、UDM、GCP_CLOUDAUDIT 或 WINEVTLOG。
- 最新問題詳細資料：指定時間範圍內最新問題的詳細資料，例如「無法剖析記錄」、「設定憑證問題」或「正規化問題」。所述問題可能可採取行動 (例如「驗證錯誤」)，也可能無法採取行動 (例如「Internal_error」)。如果問題無法解決，建議您向 Google SecOps 建立支援案件。如果在指定時間範圍內沒有任何問題，值會是空白或顯示「OK」。
- 問題持續時間：資料來源處於失敗狀態的天數。如果「狀態」為「正常」，則值為空白或顯示「不適用」。
- 上次收集時間：上次收集資料的時間戳記。
- 上次擷取：上次成功擷取的時間戳記。使用這項指標判斷記錄檔是否已傳送至 Google SecOps。
- 設定上次更新時間：指標上次變更的時間戳記。您可以使用這個值，將設定更新與觀察到的失敗情形相互關聯，協助判斷擷取或剖析問題的根本原因。
- 查看擷取詳細資料：點選這個連結即可開啟新分頁，並顯示另一個資訊主頁，其中包含其他歷史資訊，方便您進行深入分析。
- 編輯資料來源：這個連結會開啟新分頁，顯示相應的動態饋給設定，方便你修正設定相關錯誤。
- 設定快訊：這個連結會開啟新分頁，並顯示對應的 Cloud Monitoring 介面。
「依剖析器顯示的健康狀態」表格：包含下列資料欄：
- 狀態：記錄類型的累計狀態 (「正常」或「失敗」)。
- 剖析失敗率：未剖析的相應類型記錄檔百分比。
- 記錄類型：記錄類型，例如 DNS、USER、GENERIC、AZURE_AD、BIND_DNS、GCP SECURITYCENTER THREAT 或 WEBPROXY。
- 最新問題詳細資料：指定時間範圍內最新剖析問題的詳細資料，例如「剖析記錄失敗」、「設定憑證問題」或「正規化問題」。所述問題可能可採取行動 (例如「驗證錯誤」)，也可能無法採取行動 (例如「Internal_error」)。如果問題無法解決，建議您向 Google SecOps 建立支援案件。如果指定時間範圍內沒有任何問題，值會是空白或顯示「OK」。
- 問題持續時間：資料來源處於失敗狀態的天數。如果「狀態」為「正常」，則值為空白。
- 上次擷取：上次成功擷取的時間戳記。這項指標可用來判斷記錄是否已傳送至 Google SecOps。
- 上次事件時間：上次標準化記錄的事件時間戳記。
  
  注意： 即使稍後擷取較舊的事件，這個值一律是最新的時間戳記。
- 上次正規化：記錄類型上次剖析和正規化動作的時間戳記。您可以根據這項指標，判斷原始記錄是否已成功轉換為 UDM 事件。
- 設定上次更新時間：指標上次變更的時間戳記。您可以使用這個值，將設定更新與觀察到的失敗情形相互關聯，協助判斷擷取或剖析問題的根本原因。
- 查看剖析詳細資料：這個連結會開啟新分頁，顯示另一個資訊主頁，其中包含其他歷史資訊，方便您進行深入分析。
- 編輯剖析器：這個連結會開啟新分頁，顯示對應的剖析器設定，方便您修正設定相關錯誤。
- 設定快訊：這個連結會開啟新分頁，並顯示對應的 Cloud Monitoring 介面。

異常偵測引擎

「資料健康狀態監控」資訊主頁會使用 Google SecOps 異常偵測引擎，自動找出資料的重大變化，讓您快速偵測及解決潛在問題。

資料擷取異常偵測

Google SecOps 會分析每日數量變化，同時考量正常的每週模式。

異常偵測引擎會使用下列計算方式，偵測資料擷取作業中異常的暴增或暴跌情況：

每日和每週比較：Google SecOps 會計算當天與前一天的擷取量差異，以及當天與過去一週平均量的差異。
標準化：為瞭解這些變更的重要性，Google SecOps 會使用下列 z 分數公式將變更標準化：

z = (x_i − x_bar) / stdev

適用於
- z 是個人差異的標準分數 (或 z 分數)
- x_i 是個別差異值
- x_bar 是差異的平均值
- stdev 是差異的標準差
異常情況標記：如果每日和每週的標準化變化都具有統計顯著性，Google SecOps 就會標記異常情況。具體來說，Google SecOps 會搜尋：
- 下降：每日和每週的標準化差異都小於 -1.645。
- 急遽變化：每日和每週的標準化差異都大於 1.645。

正規化比率

計算擷取事件與正規化事件的比率時，異常偵測引擎會採用綜合方法，確保只標示正規化率大幅下降的情況。只有在符合下列兩項條件時，異常偵測引擎才會產生快訊：

與前一天相比，標準化比率的統計顯著程度明顯下降。
以絕對值來看，跌幅也相當顯著，幅度達 0.05 以上。

剖析錯誤異常偵測

如果資料剖析期間發生錯誤，異常狀況偵測引擎會使用比率法。如果剖析器錯誤占擷取事件總數的比例，比前一天增加 5 個百分點以上，異常偵測引擎就會觸發快訊。

後續步驟

還有其他問題嗎？向社群成員和 Google SecOps 專業人員尋求答案。