警告總覽

本文說明應用程式失敗,或效能不符合定義條件時,如何接收相關通知。

警報的運作方式

Cloud Monitoring 快訊程序包含三個部分:

  • 警告政策:說明您希望在哪些情況下收到警告,以及事件發生時的通知方式。警告政策可以監控 Monitoring 儲存的時間序列資料,或 Cloud Logging 儲存的記錄。當該資料符合警告政策條件時,Monitoring 會建立事件並傳送通知。

  • 每項事件都是記錄,會顯示受監控的資料類型,以及符合條件的時間。這項資訊有助於排解導致事件發生的問題。

  • 通知管道會定義 Monitoring 建立事件時,您接收通知的方式。舉例來說,您可以設定警告政策,透過電子郵件傳送通知 my-support-team@example.com,並在 Slack 頻道中發布訊息 #my-support-team。警告政策可包含一或多個通知管道。

快訊政策可以評估三種資料類型:

  • 時間序列資料 (也稱為指標資料),由 Monitoring 儲存。這類政策稱為「以指標為準」的快訊政策。

    如要瞭解如何設定以指標為準的警告政策,請參閱 Compute Engine 快速入門導覽課程

  • Cloud Logging 儲存的記錄項目資料。評估個別記錄項目的快訊政策稱為「記錄檔快訊政策」。記錄式快訊政策會在記錄中出現特定訊息時通知您。詳情請參閱「監控記錄」。

  • Observability Analytics 中,對 Logging 儲存的記錄項目資料執行 SQL 查詢後,監控 SQL 查詢結果的快訊政策稱為「以 SQL 為準的快訊政策」。詳情請參閱「使用警告政策監控 SQL 查詢結果」。

    以 SQL 為基礎的警告政策目前為公開預先發布版。

如果應用程式的效能未達到可接受的值,系統就會發出快訊,協助您回應問題。舉例來說,您將網頁應用程式部署到 Compute Engine 虛擬機器 (VM) 執行個體。您預期 HTTP 回應延遲會波動,但希望支援團隊在應用程式長時間出現高延遲時做出回應。您可以建立以指標為準的警告政策,監控應用程式的 HTTP 回應延遲指標。如果回應延遲時間至少五分鐘都超過兩秒,Monitoring 就會建立事件,並傳送電子郵件通知給支援團隊。

如何建立警告政策

建立警告政策的方法有很多種。舉例來說,您可以從整合服務或控制台的特定頁面啟用建議快訊,使用預先設定的快訊政策。 Google Cloud 您也可以使用Google Cloud 控制台、Cloud Monitoring APIGoogle Cloud CLITerraform 設定新的警告政策。

使用整合功能和建議的快訊政策

Monitoring 提供預先建構的套件,方便您為Google Cloud 服務和第三方整合項目建立快訊政策。這些套件包括建議的快訊政策、範例資訊主頁,以及服務的重要指標。這些套件適用於 Google Kubernetes Engine、Compute Engine 和 Cloud SQL 等服務,以及 MongoDB、Kafka 和 Elasticsearch 等常見的第三方整合服務。Google Cloud

安裝套件時,您可以啟用套件的建議快訊政策。啟用建議的警告政策時,請設定通知管道,並視需要修改其他值。設定完成後,警告政策會立即開始監控目標,不需要使用者進一步輸入任何內容。

部署新服務並想針對重要指標發出快訊時,建議的快訊政策就很有幫助。舉例來說,Cloud SQL 整合套件隨附建議的快訊政策,可針對執行個體失敗和交易緩慢的情況發出快訊:

Cloud SQL 整合套件的兩項建議快訊政策。

詳情請參閱下列文件:

建立新的快訊政策

您可以根據快訊需求,建立快訊政策來監控不同類型的資料。以下各節列出可透過快訊政策監控的各種資料類型。

監控時間序列資料

條件類型 說明 範例
指標門檻值條件

當指標值在特定重測時間範圍內高於或低於門檻時,即符合指標門檻條件。

詳情請參閱「建立指標門檻警告政策」和「使用 API 建立警告政策」。

您希望建立警告政策,在連續五次運作時間檢查中,回應延遲時間超過 10 分鐘且達到 500 毫秒以上時,傳送通知。
缺少指標條件

如果受監控的時間序列在特定重測時間範圍內沒有任何資料,就會符合缺少指標條件。最長重新測試時間為 23.5 小時。

詳情請參閱「建立指標缺席警告政策」和「使用 API 建立警告政策」。

您希望在資源五分鐘內未回應任何 HTTP 要求時,警告政策會開啟事件,並通知支援團隊。
預測指標值條件

當警告政策預測在即將到來的預測時間範圍內,會違反臨界值時,即符合預測指標值條件。預測時間範圍可從 1 小時到 7 天。

詳情請參閱「建立預測指標值警告政策」和「使用 API 建立警告政策」。

您希望建立警告政策,在資源可能於 24 小時內達到 80% 的磁碟空間用量時,向支援團隊開啟事件。

監控記錄項目資料

如要監控個別記錄項目,請使用記錄檔型警告政策。當警告政策偵測到記錄項目中的片語符合警告政策條件時,就會滿足記錄檔警告政策的條件。舉例來說,您希望在記錄項目包含  時,警告政策會向支援團隊回報事件。product_ids=['tier_1_support', 'tier_2_support']message

詳情請參閱「設定以記錄為準的快訊政策」一文。

監控 SQL 查詢結果

如要監控 SQL 查詢結果,請使用以 SQL 為基礎的警告政策。以 SQL 為基礎的警告政策條件會定期分析記錄項目資料,並在查詢結果資料表符合特定條件時建立事件。如果您需要監控多個記錄項目中的資料匯總或複雜模式,這類警告政策就非常實用。舉例來說,您希望在過去 60 分鐘內,有超過 50 個記錄項目的嚴重程度為 WARNING 時收到通知。

詳情請參閱記錄說明文件中的「使用警告政策監控 SQL 查詢結果」。

警告政策元件

每項警告政策都包含下列元件:

  • 條件,說明資源或資源群組何時處於需要您回應的狀態。條件包括資料來源、靜態或動態門檻,以及資料匯總方法,例如篩選器和 groupby。您可以透過條件監控單一指標、多個指標或指標比率。您也可以使用 Prometheus 查詢語言 (PromQL),納入動態門檻和條件邏輯等複雜運算式。

    如果您使用整合功能啟用建議的警告政策,系統會預先填入警告政策條件。

  • 通知管道清單,說明需要採取行動時要通知哪些人。詳情請參閱「建立及管理通知管道」。

  • 通知和事件頁面中顯示的說明文件。您可以設定通知的主旨行,並在通知內文中加入實用資訊。舉例來說,您可以設定通知,顯示內部手冊或自訂資訊主頁等 Google Cloud 頁面的連結。如要進一步瞭解說明文件 (包括範例),請參閱「使用自訂說明文件註解事件」。

查詢語言

在快訊政策中使用 Prometheus 查詢語言 (PromQL) 和篩選器,進一步控管指標評估。監控功能支援下列查詢類型:

  • PromQL 是用來即時評估時間序列資料的函式查詢語言。您可以設定快訊政策,在條件中加入 PromQL 查詢。PromQL 查詢可以使用任何有效運算式,例如指標組合、比率和縮放比例門檻。在 Google Cloud中設定以 PromQL 為基礎的快訊政策,即可減少對外部快訊基礎架構的依附元件。詳情請參閱「在 Cloud Monitoring 中使用 PromQL」和「PromQL 警報總覽」。

  • 監控篩選器可讓您設定快訊政策,以使用以篩選器為準的指標比率。您無法在 Google Cloud 控制台中查看或修改以篩選條件為準的快訊政策。如需使用監控篩選器的政策範例,請參閱「指標比率」。

管理快訊政策和事件

啟用警告政策後,監控功能會持續監控該政策的條件。您無法設定警告政策,只監控特定時間範圍內的狀況。如要暫時停用快訊政策,請建立暫緩

如果事件處於開啟狀態,且 Monitoring 判斷指標式政策的條件不再符合,Monitoring 就會自動關閉事件,並傳送事件關閉通知。

定價

如要瞭解 Cloud Monitoring 的定價,請參閱「Google Cloud Observability 定價」頁面。

如要瞭解如何監控擷取的追蹤跨度或記錄數量,或在記錄項目中包含特定內容時收到通知,請參閱下列文件:

後續步驟