本页介绍了如何探索与 Vertex AI Inference 端点关联的 NVIDIA 数据中心 GPU 管理器 (DCGM) 指标。
什么是 DCGM
NVIDIA 数据中心 GPU 管理器 (DCGM) 是 NVIDIA 提供的一组工具,可让您管理和监控 NVIDIA GPU。如果端点使用受支持的 GPU,Vertex AI Inference 会自动将 Vertex AI DCGM 指标导出到 Cloud Monitoring。这些指标可让您全面了解 GPU 利用率、性能和健康状况。
前提条件
在开始之前,请确保您的项目已启用 Cloud Monitoring。如需了解详情,请参阅启用 Monitoring API。
使用 DCGM 指标
如需在 Metrics Explorer 中查看 DCGM 指标,请执行以下操作:
前往 Google Cloud 控制台中的 Metrics Explorer 页面。
在选择一个指标下,选择 Prometheus 目标。
在活跃指标类别下,选择 Vertex。
在活跃指标下,选择所需的指标。
点击应用。
您还可以使用 Grafana 或 Prometheus API 或界面查询指标。
Quota
DCGM 指标使用 Cloud Monitoring API 的每分钟的时序注入请求数配额。在启用指标包之前,请检查该配额的最近峰值用量。如果您即将达到该配额上限,可以申请提高配额上限。
Vertex AI DCGM 指标
此表中的 Cloud Monitoring 指标名称必须以 prometheus.googleapis.com/ 为前缀。表中的条目已省略该前缀。
除了 prometheus_target 受监控资源上的标签之外,Vertex AI 上收集的所有 DCGM 指标都附加了以下标签:
GPU 标签:
gpu_model:GPU 设备型号,例如NVIDIA L4。gpu_uuid:GPU 设备 UUID。gpu_i_id:NVIDIA 多实例 GPU (MIG) 实例 ID。
Vertex AI 标签:
-
deployed_model_id:用于处理推理请求的已部署模型的 ID。 model_display_name:已部署模型的显示名称。-
replica_id:与已部署的模型副本(Pod 名称)对应的唯一 ID。 endpoint_id:模型端点的 ID。endpoint_display_name:模型端点的显示名称。-
product:Vertex AI 下的特征名称。始终为Online Inference。
| PromQL 指标名称 Cloud Monitoring 指标名称 |
|
|---|---|
|
种类、类型、单位
受监控的资源 | 说明 |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
可用帧缓冲区(以 MB 为单位)。 |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
GPU 的总帧缓冲区(以 MB 为单位)。 |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
已用帧缓冲区大小(以 MB 为单位)。 |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
设备的当前温度读数(以摄氏度 [°C] 为单位)。 |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
GPU 利用率(以百分比表示)。 |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
内存利用率 (%) |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
设备的内存温度(以摄氏度 [°C] 为单位)。 |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
设备的耗电量(以瓦特为单位)。 |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
SM 时钟频率(以 MHz 为单位)。 |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE、DOUBLE、1
prometheus_target
|
自上次重新加载驱动程序以来 GPU 的总能耗(以 mJ 为单位)。 |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
设备内存接口主动发送或接收数据的周期所占的比例。 |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
图形引擎处于活跃状态的时间所占的百分比。 |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
活跃的 NvLink 接收(读取)数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
活跃的 NvLink 发送数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
活跃 PCIe 接收(读取)数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
活跃 PCIe 发送数据的速率(以字节为单位),包括标头和载荷。 |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
fp16 管道处于活跃状态的周期占比。 |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
fp32 管道处于活跃状态的周期占比。 |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
fp64 管道处于活跃状态的周期占比。 |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
任意张量管道处于活跃状态的周期的比例。 |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE、DOUBLE、1
prometheus_target
|
分配了至少 1 个 warp 的 SM 的周期比例。 |
支持的 GPU
由于资源限制,除以下各项外,所有 NVIDIA GPU 均受支持:
后续步骤
- 详细了解 Metrics Explorer。