監控磁碟健康狀態

您可以查看磁碟效能狀態指標，瞭解永久磁碟或 Google Cloud Hyperdisk 磁碟區的健康狀態。這項指標表示磁碟效能是否可能受到 Compute Engine 內不良事件的影響。

影響磁碟效能狀態的問題也可能會顯示在專案的個人化服務健康狀態 (PSH) 資訊主頁或Google Cloud 服務健康狀態資訊主頁中。

本文將說明磁碟效能狀態，以及如何使用這項資訊排解效能問題。

何時該檢查磁碟健康狀態

如果發現磁碟效能問題，請查看磁碟效能狀態指標，瞭解磁碟健康狀態。磁碟效能狀態指標每分鐘更新一次，代表前一分鐘的磁碟效能。如要瞭解如何檢查磁碟健康狀態，請參閱查看磁碟效能狀態。

下表摘要列出磁碟效能狀態的可能值。

狀態	意義
`Healthy`	磁碟效能符合預期。
`Degraded`	您可能會暫時觀察到高於預期的 I/O 延遲。
`Severely degraded`	發生 I/O 延遲時間過長或其他錯誤。

如果效能狀態不是 Healthy，請參閱「瞭解各狀態」一文，瞭解後續步驟。

如果效能狀態為 Healthy，表示磁碟運作正常，您需要檢查效能問題的其他原因。請檢查應用程式或作業系統錯誤，並確認磁碟已正確最佳化。如需最佳化指南，請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。

磁碟健康狀態與其他磁碟效能指標的關係

效能狀態指標顯示的磁碟健康狀態，代表 Google 角度的磁碟內部狀態。如果磁碟的狀態為 Degraded 或 Severely Degraded，則一律是 Compute Engine 基礎架構的問題。

一般來說，您無法透過修改工作負載來變更磁碟的健康狀態。不過，在極少數情況下，工作負載的變更可能會觸發內部問題，因此修改工作負載或許能解決問題。

如要瞭解其他可用的磁碟效能指標，請參閱查看磁碟效能指標。

不會影響磁碟效能狀態的情況

磁碟效能狀態與下列因素造成的效能問題無關：

磁碟最佳化不完整或不足
與磁碟和機型相關聯的效能限制 (如果所選機型無法滿足工作負載的效能需求)
工作負載流量導致磁碟負載增加
使用者、應用程式或作業系統錯誤
磁碟空間已滿或毀損
對於 Hyperdisk 和極端永久磁碟磁碟區，佈建的 IOPS 或總處理量不足。

在這些情況下，您有責任提升效能，例如最佳化磁碟、擴大工作負載、變更機型，以及佈建更多容量、IOPS 或總處理量。

在 Cloud Monitoring 中查看磁碟健康狀態

如要查看磁碟的健康狀態，請在 Metrics Explorer 中建立圖表。

必要角色和權限

如要取得檢查磁碟效能狀態指標所需的權限，請要求管理員在專案中授予您下列 IAM 角色：

Monitoring 檢視者 (roles/monitoring.viewer)
如要將圖表儲存至資訊主頁：Monitoring 編輯者 (roles/monitoring.editor)

如要進一步瞭解如何授予角色，請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色，取得必要權限。

在 Metrics Explorer 中建立圖表

如要建立圖表，請使用選單導向介面或 PromQL 建立查詢。

如要在圖表中查看一或多個磁碟的健康狀態，請按照下列操作說明進行。

前往 Google Cloud 控制台的「Metrics Explorer」頁面：
前往 Metrics Explorer

如果您是使用搜尋列尋找這個頁面，請選取子標題為「Monitoring」的結果。
在 Google Cloud 控制台的工具列中，選取 Google Cloud 專案。如要進行 App Hub 設定，請選取 App Hub 主專案或已啟用應用程式的資料夾管理專案。
在「指標」元素中，展開「選取指標」選單，在篩選器列中輸入 VM Instance，然後使用子選單選取特定資源類型和指標：
1. 在「Active resources」(有效資源) 選單中，選取「VM Instance」(VM 執行個體)。
2. 在「使用中的指標類別」選單中，選取「執行個體」。
3. 在「使用中的指標」選單中，選取「磁碟效能狀態」。
4. 按一下「套用」。
這項指標的完整名稱為 compute.googleapis.com/instance/disk/performance_status。
如要新增篩選器，從查詢結果中移除時間序列，請使用「Filter」元素。
設定資料的查看方式。
停用匯總功能。請確認「Aggregation」元素的第一個選單已設為「Unaggregated」，第二個選單已設為「None」。
如要查看特定磁碟的健康狀態，請依 device_name 篩選。

如要進一步瞭解如何設定圖表，請參閱「使用 Metrics Explorer 時選取指標」。

PromQL

開啟查詢編輯器：按照「編寫 PromQL 查詢」一文中的步驟操作。
在查詢編輯器中輸入查詢。舉例來說，如要查看特定磁碟的效能狀態，請輸入下列查詢：

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

將 DISK_NAME 替換成磁碟名稱，例如 disk-1。

如果以圖表形式查看結果，每個磁碟會有 3 條線，分別代表各個可能狀態。同樣地，如果您在表格中查看查詢結果，則每個磁碟都會有 3 個資料列。

如果您使用 PromQL 建立查詢，則每列或每行都會有 1 或 0 值。如果是使用選單建立的查詢，這些值會是 100% 或 0。

磁碟目前的健康狀態會以值為 100% 或 1 的資料列或線條表示。

舉例來說，下方的螢幕截圖顯示名為 a-test-VM 的磁碟圖表，其狀態為 Healthy：

螢幕截圖：顯示磁碟狀態為「健康」的圖表

如果以表格形式查看查詢結果，下表會顯示磁碟的結果範例：Healthy：

performance_status	值
`Healthy`	`1`
`Degraded`	`0`
`Severely Degraded`	`0`

以下螢幕截圖顯示名為 replica-23509 的磁碟圖表，其狀態為「已降級」：螢幕截圖：顯示磁碟狀態為「Degraded」的圖表

如要瞭解各個效能狀態的意義，請參閱「瞭解各個狀態」。建立圖表後，您可以將圖表儲存至資訊主頁，供日後使用。

分數結果

如果查詢結果包含分數，如下表所示，通常是因為選取的顯示期間較長。因此，Cloud Monitoring 會匯總一段時間內的資料。如果 Healthy 狀態的值為 77%，表示磁碟在所選顯示期間內有 77% 的時間處於 Healthy 狀態。

performance_status	值
`Healthy`	`77%`
`Degraded`	`23%`
`Severely Degraded`	`0`

如要更精細地查看磁碟健康狀態，請使用幾小時或幾分鐘的顯示時間。

瞭解各個狀態

本節將說明各狀態的意義，以及您可能需要採取進一步行動的情況。

`Healthy`

Healthy 狀態表示從 Google 的角度來看，磁碟運作正常。

如果 Healthy 磁碟發生效能問題，請勿聯絡支援團隊。請改用下列建議排解磁碟問題：

查看磁碟效能指標，例如延遲時間和佇列深度。
檢查工作負載的記錄和指標，找出異常狀況和瓶頸。
如果您使用 Persistent Disk，請確認佈建的容量可滿足磁碟的效能需求。如果您使用 Hyperdisk 或 Extreme 永久磁碟區，請確認您已佈建足夠的 IOPS 和總處理量。
請確認您已按照相關規範最佳化磁碟。詳情請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。

`Degraded`

如果磁碟狀態為 Degraded，通常不需要聯絡支援團隊。Degraded status 通常是由 Compute Engine 基礎架構的正常內部維護作業所致。

磁碟狀態為 Degraded 時，您可能不會發現磁碟效能受到影響。如果效能問題和 Degraded 狀態在時間上相關，效能問題可能仍與 Degraded 狀態無關。

如果效能問題是由 Degraded 狀態所致，影響通常是暫時性的。磁碟狀態應會在幾分鐘內恢復為 Healthy。

如果磁碟沒有效能問題，可以放心地忽略 Degraded 狀態。

如何解決成效問題

如果磁碟的效能狀態為 Degraded，且您發現效能問題，請按照下列步驟操作：

查看 PSH 資訊主頁，確認是否有影響磁碟的事件。如果發生事件，請勿與支援團隊聯絡，因為 Google 已知情並正在解決問題。
如果沒有已知問題，請等待至少 5 分鐘，讓效能問題自行解決。
如果 5 分鐘後效能問題仍未解決且狀態仍為 Degraded，請確認效能問題是否是因為磁碟最佳化不足所致。例如檢查磁碟的延遲時間和佇列深度。成效問題和 Degraded 狀態可能無關，只是巧合。如要這麼做，請查看磁碟的指標和效能最佳化指南。
如果效能問題仍未解決，且符合所有下列條件，請聯絡支援團隊尋求協助：
- 磁碟狀態已顯示 Degraded 超過 5 分鐘
- 您已完成磁碟最佳化，並確認沒有其他問題 (例如瓶頸或應用程式過載)，因此有理由相信這不是工作負載問題
- PSH 資訊主頁沒有任何快訊

Google 不建議直接為 Degraded 狀態建立快訊，而是建議針對較高層級的應用程式狀態發出快訊，並使用這項指標偵錯。

`Severely Degraded`

效能狀態為 Severely Degraded 的磁碟表示效能有問題。這可能是因為發生事件或錯誤，且可能已顯示在 PSH 資訊主頁或Google Cloud 服務健康狀態資訊主頁中。

建議行動

如果磁碟的效能狀態為 Severely Degraded，請按照下列步驟操作：

請查看 PSH 資訊主頁和一般 Google Cloud 健康狀態資訊主頁，瞭解影響磁碟的事件。如果發生事件，請勿與支援團隊聯絡，因為 Google 已掌握情況，並正在設法解決問題。
如果兩個資訊主頁都沒有已知問題，請與支援團隊聯絡，尋求協助。

決策樹狀圖

下圖說明磁碟發生效能問題時的處理方式，並總結前幾節的資訊。

流程圖：說明如何解讀磁碟效能狀態指標。

如流程圖所示，只有在 PSH 和 Cloud 服務資訊主頁中沒有已知快訊，且磁碟狀態為 Severely Degraded 時，才應聯絡支援團隊。如果磁碟為 Degraded，請僅在符合下列「所有」條件時聯絡支援團隊：

磁碟已 Degraded超過 5 分鐘
您已排除工作負載錯誤或設定錯誤 (例如網路問題)
無法在應用程式、工作負載或磁碟層級執行其他最佳化作業
你已查看所有磁碟指標
您已檢查工作負載和虛擬機器 (VM) 記錄

後續步驟

進一步瞭解如何使用 Metrics Explorer 建立圖表，以及如何在圖表中新增篩選器，縮小查詢結果範圍。
在個人服務健康狀態資訊主頁和 Google 服務健康狀態中，查看目前和過去的服務健康狀態事件
如需效能最佳化指南，請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。