Cloud Monitoring 會自動收集及儲存 Managed Lustre 執行個體的相關資訊。
本文詳細說明可用於在 Google Cloud上監控 Managed Lustre 執行個體的指標。這些指標可協助您瞭解受管理 Lustre 檔案系統的效能、容量和健康狀態,找出瓶頸、排解問題,並盡可能提高資源使用率。
您可以在 Cloud Monitoring 中使用這些指標建立自訂資訊主頁、設定快訊,並深入瞭解 Managed Lustre 執行個體的行為。
系統會自動為 Managed Lustre 啟用 Cloud Monitoring。 收集資料或在Google Cloud 控制台中查看指標都不必付費。API 呼叫可能會產生費用;如需定價詳情,請參閱「Cloud Monitoring 定價」。
必要的 IAM 角色
您必須具備下列角色:
- Monitoring 檢視者 (
roles/monitoring.viewer) 或同等權限,才能在 Cloud Monitoring 中查看指標。 - 監控編輯者 (
roles/monitoring.editor) 或同等權限,可設定快訊。
瞭解如何授予 IAM 角色。
查看指標
您可以在 Cloud Monitoring 主控台的兩個位置查看指標:Google Cloud
「Managed Lustre instance details」(受管理 Lustre 執行個體詳細資料) 頁面會顯示可用的指標。除了下列指標,這項作業也會計算複製的位元組頻寬,以及複製的物件速率。
Cloud Monitoring 頁面提供多種圖表選項和自訂功能。
在執行個體詳細資料頁面中查看指標
如要查看特定執行個體的指標,請按照下列步驟操作:
前往 Google Cloud 控制台的「Instances」(執行個體) 頁面。
按一下要查看指標的執行個體。「執行個體詳細資料」頁面隨即顯示。
按一下 [監控] 分頁。系統會顯示預設資訊主頁。
在 Cloud Monitoring 中查看指標
如要在 Cloud Monitoring 中查看 Managed Lustre 指標,請按照下列步驟操作:
前往 Google Cloud 控制台的「Metrics Explorer」頁面。
按照「使用 Metrics Explorer 建立圖表」一文中的指示,選取並顯示指標。
設定快訊
您可以在 Cloud Monitoring 中設定快訊政策,在 Managed Lustre 檔案系統符合特定條件時收到通知,例如超過儲存空間容量或輸送量限制。
必要條件
如要建立快訊政策,您必須具備專案的「Monitoring 編輯者」(roles/monitoring.editor) IAM 角色。
建立快訊政策
如要設定快訊,請使用指標或 PromQL 查詢定義條件,並設定通知管道。
前往 Google Cloud 控制台的「Alerting」(警告) 頁面。 Google Cloud
點選「+ Create policy」。
選取「產生器」並選取指標,或選擇「程式碼編輯器」,然後輸入 PromQL 查詢。在指標挑選器中,Managed Lustre 指標會歸類在「Lustre instance」和「Lustre location」資源下。
設定觸發邏輯,並定義通知管道和通知設定。
點選「建立政策」。
如要進一步瞭解如何建立觸發條件及其他選項,請參閱:
範例:建立儲存空間容量快訊
以下範例說明如何建立快訊,在 Managed Lustre 執行個體超過佈建容量的 80% 時觸發快訊。
前往 Google Cloud 控制台的「Alerting」(警告) 頁面。 Google Cloud
點選「+ Create policy」。
選取「程式碼編輯器」。
在「查詢編輯器」中,貼上下列 PromQL 查詢:
( sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes) ) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8這項查詢會計算所有執行個體的用量比率:
(Total - Available) / Total。值0.8代表達到 80% 用量的總位元組數。如要在 90% 時發出快訊,請將這個值變更為0.9。按一下「執行查詢」,即可驗證語法並查看目前使用率的圖表。
按一下「下一步」,然後將觸發條件設為「任何時間序列違反條件時」。
點選「下一步」。在「說明文件」部分,新增解決容量問題的建議動作。例如:
## Action Required: Lustre Capacity Warning The Managed Lustre instance is exceeding 80% capacity usage. **Metric:** Usage Ratio > 0.8 **Severity:** Warning **Recommended Actions:** 1. Check the instance details in the Google Cloud console. 2. Verify if this is expected data growth or a runaway process. 3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space. 4. Failure to address this may result in "No Space Left on Device" errors for client applications.
使用 gcloud 建立快訊政策
您可以使用 Google Cloud CLI 建立快訊政策。請注意,您必須稍後在 Google Cloud 控制台中編輯快訊,才能啟用特定通知管道。
以下範例使用 gcloud 建立 80% 容量警示:
gcloud monitoring policies create \
--policy-from-file=/dev/stdin <<EOF
{
"displayName": "Lustre High Capacity Usage (>80%)",
"severity": "WARNING",
"combiner": "OR",
"conditions": [
{
"displayName": "Capacity Usage Ratio > 0.8",
"conditionPrometheusQueryLanguage": {
"query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
"duration": "300s",
"evaluationInterval": "60s",
"alertRule": "AlwaysOn"
}
}
],
"documentation": {
"content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
"mimeType": "text/markdown"
}
}
EOF
指標詳細資料
Managed Lustre 執行個體提供下列指標。
每項指標都會依類型 (例如 lustre.googleapis.com/instance/available_bytes),並提供顯示名稱、說明和特定標籤,以提供額外背景資訊。
系統每 60 秒就會取樣資料一次。取樣完畢後,最多會有 180 秒無法查看資料。
儲存空間容量指標
與 Lustre 檔案系統上可用和佈建的儲存空間相關的指標。
如果是指標標籤,target 的值會採用 <fsname>-<TYPE><HEXA> 格式,其中 <HEXA> 是目標的十六進位零基底索引。舉例來說,如果檔案系統名稱為 filesys,則第 43 個 OST 為 filesys-OST002a,第 4 個 MDT 為 filesys-MDT0003。
| 指標 | 說明 | 詳細資料 |
|---|---|---|
available_bytes |
特定物件儲存空間目標 (OST) 或中繼資料目標 (MDT) 的儲存空間位元組數,可供非根使用者使用。 | 顯示名稱:可用位元組 指標種類:GAUGE 值類型:INT64 單位:位元組 標籤: component:目標類型:ost、
mdt 或 mgt。target:目標名稱。 |
capacity_bytes |
為指定目標佈建的位元組數。如要取得執行個體的叢集可用資料或中繼資料總空間,請將特定類型目標的所有目標容量加總。 | 顯示名稱:容量位元組 指標種類:GAUGE 值類型:INT64 單位:位元組 標籤: component:目標類型:ost、
mdt 或 mgt。target:目標名稱。 |
free_bytes |
根使用者可用的特定 OST 或 MDT 儲存空間位元組數。 | 顯示名稱:可用位元組數 指標種類:GAUGE 值類型:INT64 單位:位元組 標籤: component:目標類型:ost、mdt 或 mgt。target:目標名稱。 |
Inode (物件) 指標
與可用 inode (物件) 數量和容量上限相關的指標。
| 指標 | 說明 | 詳細資料 |
|---|---|---|
inodes_free |
指定目標上可用的 inode (物件) 數量。 | 顯示名稱:可用 inode 指標種類:GAUGE 值類型:INT64 單位:inode 標籤: component:目標類型。target:目標名稱。 |
inodes_maximum |
目標可容納的 inode (物件) 數量上限。 | 顯示名稱:最大 inode 數 指標種類:GAUGE 值類型:INT64 單位:inode 數 標籤: component:目標類型。target:目標名稱。 |
I/O 效能指標
可深入瞭解資料傳輸速率和作業延遲時間的指標。
作業延遲時間
| 指標 | 說明 | 詳細資料 |
|---|---|---|
io_time_milliseconds_total |
延遲時間落在分組延遲時間範圍內的讀取或寫入作業數量。 | 顯示名稱:作業延遲 指標種類:CUMULATIVE 值類型:INT64 單位:作業 標籤: component:目標類型。operation:作業類型。size:延遲時間範圍 (已分組)。舉例來說,512 包含耗時介於 512 到 1024 毫秒的作業數量。target:目標名稱。
|
read_bytes_total |
從指定 OST 讀取的資料位元組數。 | 顯示名稱:讀取的資料位元組數 指標種類:CUMULATIVE 值類型:INT64 單位:位元組 標籤: component:目標類型,一律為 ost。operation:作業類型:read。target:目標名稱。 |
read_samples_total |
在指定 OST 執行的讀取作業數量。 | 顯示名稱:資料讀取作業 指標種類:CUMULATIVE 值類型:INT64 單位:作業 標籤: component:目標類型,一律為 ost。operation:作業類型:read。target:目標名稱。 |
write_bytes_total |
寫入指定 OST 的資料位元組數。 | 顯示名稱:資料寫入位元組 指標種類:CUMULATIVE 值類型:INT64 單位:位元組 標籤: component:目標類型,一律為 ost。operation:作業類型:write。target:目標名稱。 |
write_samples_total |
在指定 OST 執行的寫入作業數量。 | 顯示名稱:資料寫入作業 指標種類:CUMULATIVE 值類型:INT64 單位:作業 標籤: component:目標類型,一律為 ost。operation:作業類型:write。target:目標名稱。 |
用戶端連線指標
專門用於瞭解用戶端連線的指標。
連結的用戶端
| 指標 | 說明 | 詳細資料 |
|---|---|---|
connected_clients |
目前連線至指定 MDT 的用戶端數量。 | 顯示名稱:已連線的用戶端 指標種類:GAUGE 值類型:INT64 單位:用戶端 標籤: component:目標類型。這個值一律為 mdt。target:MDT 的名稱。 |