使用 Cloud Monitoring 監控執行個體

本文說明如何使用 Cloud Monitoring 主控台監控 Spanner 執行個體。

Cloud Monitoring 控制台提供多種 Spanner 監控工具:

如要透過程式監控 Spanner,請使用 Cloud Monitoring 的 Cloud 用戶端程式庫擷取指標。

使用 Cloud Monitoring 精選資訊主頁

Cloud Monitoring 提供經過規劃的資訊主頁,匯總有關 Spanner 執行個體的重要資訊,包括:

  • 事件:使用者建立的監控快訊,狀態可以是待解決、處理中或已解決
  • 活動:Spanner 稽核記錄清單 (如果已啟用且可用)
  • 執行個體:Spanner 執行個體的高階摘要,包括運算能力、資料庫數量和執行個體健康狀態
  • 總處理量和儲存空間使用量的「匯總圖表」

如要查看 Spanner 資訊主頁,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,選取「Monitoring」,或使用下列按鈕:

    前往 Monitoring

  2. 如果導覽窗格中顯示「資源」,請依序選取「資源」和「Cloud Spanner」。否則,請選取「資訊主頁」,然後選取名為「Cloud Spanner」的資訊主頁。

查看執行個體和資料庫詳細資料

開啟 Spanner 的精選資訊主頁時,系統會顯示所有執行個體的匯總資料。如要查看特定執行個體的更多詳細資料,請按一下「Instances」(執行個體) 下方的執行個體名稱。

資訊主頁會顯示許多資訊,例如執行個體中繼資料、執行個體中的資料庫,以及依地區細分的各種指標的圖表。

在執行個體資訊主頁頁面中,您也可以查看該執行個體中特定資料庫的圖表:

  1. 在畫面右側,執行個體指標圖表的上方,按一下 [Database metrics] (資料庫指標)

  2. 在「Select a breakdown」下拉式清單中,選取要檢查的資料庫。

    Cloud Monitoring 控制台會顯示該資料庫的圖表。

建立 Spanner 指標的自訂圖表

您可以使用 Cloud Monitoring 建立 Spanner 指標的自訂圖表。您可以使用 Metrics Explorer 建立臨時的隨選圖表,也可以建立會顯示在自訂資訊主頁上的圖表。

具體來說,Cloud Monitoring 可讓您建立自訂圖表,顯示兩項以上的指標是否彼此相關。舉例來說,您可以檢查 Spanner 執行個體中的 CPU 使用率延遲時間之間的關聯性,這可能表示執行個體需要更多運算資源,或是部分查詢導致 CPU 使用率偏高。

如要開始使用這個範例,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,選取「Monitoring」,或使用下列按鈕:

    前往 Monitoring

  2. 如果導覽窗格中顯示「指標探索器」,請選取該項目。 否則,請選取「資源」,然後選取「指標探索器」

  3. 按一下「查看選項」分頁標籤,然後選取「Y 軸對數比例」核取方塊。如果某個指標的值遠大於其他指標,這個選項有助於比較多個指標。

  4. 在右側窗格上方的下拉式清單中,選取「線條」

  5. 按一下「指標」分頁標籤。現在可以將指標新增至圖表。

如要在圖表中新增延遲指標,請按照下列步驟操作:

  1. 在「Find resource type and metric」方塊中輸入 spanner.googleapis.com/api/request_latencies 值,然後按一下方塊下方顯示的資料列。
  2. 在「篩選器」方塊中輸入值 instance_id,然後輸入要檢查的執行個體 ID,並按一下「套用」
  3. 在「Aggregator」下拉式選單中,按一下「max」
  4. 選用:變更延遲時間百分位數:

    1. 按一下 [Show advanced options] (顯示進階選項)
    2. 按一下「Aligner」下拉式選單,然後按一下要查看的延遲百分位數。

    在大多數情況下,您應該查看第 50 個百分位數的延遲時間,瞭解一般延遲時間量,或是查看第 99 個百分位數的延遲時間,瞭解最慢的 1% 要求的延遲時間。

如要在圖表中新增 CPU 使用率指標,請按照下列步驟操作:

  1. 按一下「新增指標」圖示
  2. 在「Find resource type and metric」方塊中輸入 spanner.googleapis.com/instance/cpu/utilization 值,然後按一下方塊下方顯示的資料列。
  3. 在「篩選器」方塊中輸入值 instance_id,然後輸入要檢查的執行個體 ID,並按一下「套用」
  4. 在「Aggregator」下拉式選單中,按一下「max」

現在您可以看到圖表,顯示 Spanner 執行個體的 CPU 使用率和延遲指標。如果兩項指標同時高於預期,您可以採取額外步驟修正問題

如要進一步瞭解如何建立自訂圖表,請參閱 Cloud Monitoring 說明文件

建立 Spanner 指標的警告

建立 Spanner 執行個體時,請選擇執行個體的運算容量。執行個體的工作負載變更時,Spanner 不會自動調整執行個體的運算能力。因此,您需要設定多個快訊,確保執行個體維持在建議的 CPU 使用率上限建議的儲存空間限制內。

以下範例說明如何為部分 Spanner 指標設定快訊政策。如需可用指標的完整清單,請參閱 Spanner 的指標清單

高優先順序 CPU

如要建立快訊政策,以便在 Spanner 的高優先順序 CPU 使用率超過建議門檻時接收通知,請使用下列設定。

新增條件
欄位

資源和指標 在「資源」選單中,選取「Spanner 執行個體」
在「指標類別」選單中,選取「執行個體」
在「指標」選單中,選取「依優先順序顯示 CPU 使用率」

(指標類型為 spanner.googleapis.com/instance/cpu/utilization_by_priority)。
篩選器 instance_id = YOUR_INSTANCE_ID
priority = high
跨時間序列
時間序列分組依據
location 用於多地區執行個體;
地區執行個體則留空。
跨時間序列
時間序列匯總
sum
滾動視窗 10 m
滾動週期函式 mean
設定快訊觸發條件
欄位

條件類型 Threshold
快訊觸發條件 Any time series violates
門檻位置 Above threshold
門檻值 多地區執行個體為 45%;地區執行個體為
65%
重新測試週期 10 minutes

24 小時累計平均 CPU

如要建立快訊政策,以便在 Spanner 的 CPU 使用率 24 小時滾動平均值超過建議的臨界值時接收通知,請使用下列設定。

新增條件
欄位

資源和指標 在「資源」選單中,選取「Spanner 執行個體」
在「指標類別」選單中,選取「執行個體」
在「指標」選單中,選取「平滑 CPU 使用率」

(指標類型為 spanner.googleapis.com/instance/cpu/smoothed_utilization)。
篩選器 instance_id = YOUR_INSTANCE_ID
跨時間序列
時間序列匯總
sum
滾動視窗 10 m
滾動週期函式 mean
設定快訊觸發條件
欄位

條件類型 Threshold
快訊觸發條件 Any time series violates
門檻位置 Above threshold
門檻 90%
重新測試週期 10 minutes

儲存空間

如要建立快訊政策,以便在 Spanner 執行個體的儲存空間超過建議門檻時接收通知,請使用下列設定。

新增條件
欄位

資源和指標 在「資源」選單中,選取「Spanner 執行個體」
在「指標類別」選單中,選取「執行個體」
在「指標」選單中,選取「已使用的儲存空間」

(指標類型為 spanner.googleapis.com/instance/storage/utilization)。
篩選器 instance_id = YOUR_INSTANCE_ID
跨時間序列
時間序列匯總
sum
滾動視窗 10 m
滾動週期函式 max
設定快訊觸發條件
欄位

條件類型 Threshold
符合下列情況時觸發條件 Any time series violates
門檻位置 Above threshold
門檻值 您不需要為每個節點設定儲存空間上限的特定門檻。不過,我們建議您設定快訊,在儲存空間即將達到上限時收到通知。詳情請參閱「儲存空間使用率指標」。
重新測試週期 10 minutes

後續步驟