En esta página, se explica cómo explorar las métricas del administrador de GPU del centro de datos de NVIDIA (DCGM) asociadas con tus extremos de Vertex AI Inference.
¿Qué es DCGM?
El administrador de GPU del centro de datos de NVIDIA (DCGM) es un conjunto de herramientas de NVIDIA que te permiten administrar y supervisar las GPU de NVIDIA. Vertex AI Inference exporta automáticamente las métricas de DCGM de Vertex AI a Cloud Monitoring si tus extremos utilizan GPUs compatibles. Estas métricas proporcionan una vista integral de la utilización, el rendimiento y el estado de la GPU.
Requisitos previos
Antes de comenzar, asegúrate de que tu proyecto tenga habilitado Cloud Monitoring. Consulta Habilita la API de Monitoring para obtener más información.
Usa las métricas de DCGM
Para ver las métricas de DCGM en el Explorador de métricas, haz lo siguiente:
Ve a la página Explorador de métricas en la consola de Google Cloud .
En Selecciona una métrica, elige Prometheus Target.
En Categorías de métricas activas, selecciona Vertex.
En Métricas activas, selecciona la métrica deseada.
Haz clic en Aplicar.
También puedes consultar las métricas con Grafana o la API o IU de Prometheus.
Cuota
Las métricas de DCGM consumen la cuota de solicitudes de transferencia de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, verifica tu uso máximo reciente de esa cuota. Si ya te estás acercando a ese límite de cuota, puedes solicitar un aumento del límite de cuota.
Métricas de DCGM de Vertex AI
Los nombres de las métricas de Cloud Monitoring que figuran en esta tabla deben tener el prefijo
prometheus.googleapis.com/. Sin embargo, el prefijo se omitió en las
entradas de la tabla.
Junto con las etiquetas del recurso supervisado prometheus_target, todas las métricas de DCGM recopiladas en Vertex AI tienen las siguientes etiquetas adjuntas:
Etiquetas de GPU:
gpu_model: Es el modelo del dispositivo de GPU, comoNVIDIA L4.gpu_uuid: Es el UUID del dispositivo de GPU.gpu_i_id: Es el ID de la instancia de GPU de varias instancias (MIG) de NVIDIA.
Etiquetas de Vertex AI:
-
deployed_model_id: Es el ID de un modelo implementado que procesa solicitudes de inferencia. model_display_name: Es el nombre visible de un modelo implementado.-
replica_id: Es el ID único que corresponde a la réplica del modelo implementado (nombre del Pod). endpoint_id: Es el ID de un extremo del modelo.endpoint_display_name: Es el nombre visible de un extremo del modelo.-
product: Es el nombre de la función en Vertex AI. Siempre esOnline Inference.
| Nombre de la métrica de PromQL Nombre de la métrica de Cloud Monitoring |
|
|---|---|
|
Clase, tipo, unidad
Recursos supervisados | Descripción |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Búfer de fotogramas libre en MB. |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es el búfer de fotogramas total de la GPU en MB. |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es el búfer de fotogramas utilizado en MB. |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Son las lecturas de temperatura actuales del dispositivo (en °C). |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es el porcentaje de uso de la GPU. |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Porcentaje de uso de memoria. |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la temperatura de la memoria del dispositivo (en °C). |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Uso de energía del dispositivo (en vatios). |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Frecuencia de reloj de SM (en MHz). |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
|
Consumo total de energía de la GPU en mJ desde la última vez que se volvió a cargar el controlador. |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos. |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de tiempo en que el motor de gráficos está activo. |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la tasa de datos de recepción (lectura) de NvLink activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la tasa de datos de transmisión (tx) de NvLink activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la tasa de datos activos de PCIe rx (lectura) en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la tasa de datos de transmisión (tx) de PCIe activos en bytes, incluidos el encabezado y la carga útil. |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de ciclos en los que la canalización de fp16 está activa. |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de ciclos en los que la canalización de fp32 está activa. |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de ciclos en los que la canalización de FP64 está activa. |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de ciclos en los que cualquier canalización de tensor está activa. |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Es la proporción de ciclos en los que un SM tiene al menos 1 warp asignado. |
GPU compatibles
Se admiten todas las GPU de NVIDIA, excepto las siguientes, debido a limitaciones de recursos:
¿Qué sigue?
- Obtén más información sobre el Explorador de métricas.