本主題說明如何在 Cloud Operations 資訊主頁中查看 Apigee Hybrid 指標。
關於 Cloud Operations
如要進一步瞭解指標、資訊主頁和 Cloud Operations,請參閱:
啟用混合指標
如要將混合式指標傳送至 Cloud Operations,請先啟用指標收集功能。如需這項程序的說明,請參閱「設定指標收集作業」。
關於混合指標名稱和標籤
啟用後,混合式功能會自動填入 Cloud Operations 指標。混合式建立的指標網域名稱前置字串為:
apigee.googleapis.com/
舉例來說,/proxy/request_count 指標包含 API Proxy 收到的要求總數。因此,Cloud Operations 中的指標名稱為:
apigee.googleapis.com/proxy/request_count
Cloud Operations 可讓您根據標籤篩選及分組指標資料。部分標籤是預先定義,其他標籤則是由混合式設定明確新增。 下方的「可用指標」部分會列出所有可用的混合指標,以及您可使用於篩選和分組的指標專屬標籤。
查看指標
以下範例說明如何在 Cloud Operations 中查看指標:- 在瀏覽器中開啟 Monitoring Metrics Explorer。或者,如果您已在 Cloud Operations 控制台中,請選取「指標探索器」。
在「Find resource type and metric」(尋找資源類型和指標) 中,找出並選取要檢查的指標。從「可用指標」中選擇特定指標,或搜尋指標。
- 選取所需指標。
- 套用篩選器。如要查看各項指標的篩選器選項,請參閱「可用指標」。
- Cloud Operations 會顯示所選指標的圖表。
- 按一下 [儲存]。
建立資訊主頁
資訊主頁是檢視並分析重要指標資料的方法之一,Cloud Operations 會為您使用的資源和服務提供預先定義的資訊主頁,您也可以建立自訂資訊主頁。
您可以使用圖表在自訂資訊主頁中顯示 Apigee 指標。您可以完全掌控要顯示的圖表及其設定。如要進一步瞭解如何建立圖表,請參閱建立圖表一文。
以下範例說明如何在 Cloud Operations 中建立資訊主頁,然後新增圖表來查看指標資料:
- 在瀏覽器中開啟 Monitoring 指標探索工具,然後選取「資訊主頁」。
- 選取「+ 建立資訊主頁」。
- 為資訊主頁命名。例如:混合式 Proxy 要求流量
- 按一下「確認」。
如要將圖表新增至資訊主頁,請按照下列步驟操作:
- 在資訊主頁中,選取「新增圖表」。
- 如要選取所需指標,請參閱上文的「查看指標」一節。
- 完成對話方塊,定義圖表。
- 按一下 [儲存]。Cloud Operations 會顯示所選指標的資料。
可用的指標
下表列出用於分析 Proxy 流量的指標。如要進一步瞭解各項 Apigee 指標,請參閱「Google Cloud 指標」。
Proxy、目標和伺服器流量指標
Open Telemetry 會收集及處理 Proxy、目標和伺服器流量的指標 (如「指標收集」一節所述)。
下表說明 Open Telemetry 收集器使用的指標。
| 指標名稱 | 使用 |
|---|---|
/proxy/request_count |
自上次記錄樣本以來,對 Apigee Proxy 發出的要求數。 |
/proxy/response_count |
Apigee API Proxy 傳送的回應數量。 |
/proxy/latencies |
延遲時間分布情形,計算方式是從 Apigee Proxy 接收要求的時間,到 Apigee Proxy 將回應傳送至用戶端的時間。 |
/proxyv2/request_count |
收到的 API 代理要求總數。 |
/proxyv2/response_count |
收到的 API 代理伺服器回應總數。 |
/proxyv2/latencies_percentile |
要求的所有 API 政策回應的百分位數。 |
/target/request_count |
自上次記錄樣本以來,傳送至 Apigee 目標的要求數量。 |
/target/response_count |
自上次記錄樣本以來,從 Apigee 目標收到的回應數量。 |
/target/latencies |
延遲時間分布情形,計算方式是從要求傳送至 Apigee 目標的時間,到 Apigee Proxy 接收回應的時間。時間不包括 Apigee API Proxy 的額外負荷。 |
/targetv2/request_count |
傳送至 Proxy 目標的要求總數。 |
/targetv2/response_count |
從 Proxy 目標收到的回應總數。 |
/server/fault_count |
伺服器應用程式的錯誤總數。 例如 |
/server/nio |
這是可依標籤 state 篩選的計量指標,可擷取各種標籤的詳細資料。這些值代表不同的系統和 I/O 作業。accepted、accepted_total、close_failed、close_success、conn_pending、connected、connected_total、max_conn 和 timeouts 等標籤與插座和連線作業相關。其餘標籤則與其他系統作業相關。 |
/server/num_threads |
伺服器中有效非 Daemon 執行緒的數量。 |
/server/request_count |
伺服器應用程式收到的要求總數。 例如 |
/server/response_count |
伺服器應用程式傳送的回應總數。 例如 |
/server/latencies |
延遲時間是指伺服器應用程式造成的延遲時間 (以毫秒為單位)。 例如 |
/upstream/request_count |
伺服器應用程式傳送至上游應用程式的要求數量。 舉例來說,對於 |
/upstream/response_count |
伺服器應用程式從上游應用程式收到的回應數量。 舉例來說,對於 |
/upstream/latencies |
上游伺服器應用程式產生的延遲時間 (以毫秒為單位)。 舉例來說,對於 |
Cassandra 指標
OpenTelemetry 會收集及處理 Cassandra 的指標 (如「指標收集」一文所述),就像處理其他混合式服務一樣。
下表說明 Open Telemetry 收集器在 Cassandra 指標資料中使用的指標。
| 指標名稱 (不含網域) | 使用 |
|---|---|
/cassandra/process_max_fds |
開啟檔案描述元的數量上限。 |
/cassandra/process_open_fds |
開啟檔案描述元。 |
/cassandra/jvm_memory_pool_bytes_max |
集區的 JVM 記憶體用量上限。 |
/cassandra/jvm_memory_pool_bytes_init |
集區的 JVM 初始記憶體用量。 |
/cassandra/jvm_memory_bytes_max |
JVM 堆積記憶體用量上限。 |
/cassandra/process_cpu_seconds_total |
使用者和系統 CPU 作業時間,以秒為單位。 |
/cassandra/jvm_memory_bytes_used |
JVM 堆積記憶體用量。 |
/cassandra/compaction_pendingtasks |
Cassandra sstable 的待處理壓縮作業。 詳情請參閱「壓縮」一節。 |
/cassandra/jvm_memory_bytes_init |
JVM 堆積初始記憶體用量。 |
/cassandra/jvm_memory_pool_bytes_used |
JVM 集區記憶體用量。 |
/cassandra/jvm_memory_pool_bytes_committed |
JVM 集區已分配的記憶體用量。 |
/cassandra/clientrequest_latency |
第 75 個百分位數範圍內的讀取要求延遲時間 (以微秒為單位)。 |
/cassandra/jvm_memory_bytes_committed |
JVM 堆積已配置記憶體用量。 |
使用 Cassandra 指標
Apigee 建議監控下列指標,因為這些指標對 Cassandra 資料庫至關重要:
- Cassandra 要求率:使用這項指標監控 Cassandra 讀取和寫入要求率。
指標: apigee.googleapis.com/cassandra/clientrequest_latency資源標籤: project_id、location、cluster_name、namespace_name、pod_name、container_name指標標籤: scope,unit使用這些標籤篩選特定資源或進行分組。
如要監控 Cassandra 讀取要求率,請套用下列篩選器。
篩選器: metric.scope == 'Read'
metric.unit == 'OneMinuteRate'如要監控 Cassandra 寫入要求率,請套用下列篩選條件。
篩選器: metric.scope == 'Write'
metric.unit == 'OneMinuteRate' - Cassandra 要求延遲時間:使用這項指標監控 Cassandra 讀取和寫入要求延遲時間。這與要求率是相同的指標,只是套用的篩選條件不同。
apigee.googleapis.com/cassandra/clientrequest_latency如要監控 Cassandra 讀取要求延遲時間,請套用下列篩選器。
篩選器: metric.scope == 'Read'
metric.unit == '99thPercentile'或'95thPercentile'或'75thPercentile'如要監控 Cassandra 寫入要求延遲時間,請套用下列篩選器。
篩選器: metric.scope == 'Write'
metric.unit == '99thPercentile'或'95thPercentile'或'75thPercentile' - Cassandra Pod CPU 要求使用率
指標: kubernetes.io/container/cpu/request_utilization (GKE on Google Cloud)
詳情請參閱 Kubernetes 指標。
kubernetes.io/anthos/container/cpu/request_utilization (Google Distributed Cloud)資源標籤: project_id、location、cluster_name、namespace_name、pod_name、container_name使用這些標籤篩選特定資源或進行分組。
- Cassandra 資料磁碟區用量
指標: kubernetes.io/pod/volume/utilization (GKE on Google Cloud)
詳情請參閱 Kubernetes 指標。
kubernetes.io/anthos/pod/volume/utilization (Google Distributed Cloud)資源標籤: project_id、location、cluster_name、namespace_name、pod_name指標標籤: volume_name使用這些標籤篩選特定資源或進行分組。
擴充 Cassandra 叢集的建議
下列指南可做為建議叢集,協助您決定是否要擴充 Cassandra 叢集。一般來說,如果讀取或寫入要求持續顯示第 99 個百分位數的延遲時間,或延遲時間持續上升,且您看到 CPU 要求使用率和讀取或寫入要求率相應地出現尖峰,則可視為 Cassandra 叢集處於壓力狀態。建議您考慮擴大叢集規模。詳情請參閱調整 Cassandra 資源配置。
| 指標 | 門檻 | 觸發時間長度 |
|---|---|---|
kubernetes.io/pod/volume/utilization | 85% | 5 分鐘 |
kubernetes.io/container/cpu/request_utilization | 85% | 3 分鐘 |
Read request Latency 99thPercentile | 5 秒 | 3 分鐘 |
Write request Latency 99thPercentile | 5 秒 | 3 分鐘 |