Consulta las métricas de DCGM de Vertex AI Inference

En esta página, se explica cómo explorar las métricas del administrador de GPU del centro de datos de NVIDIA (DCGM) asociadas con tus extremos de Vertex AI Inference.

¿Qué es DCGM?

El administrador de GPU del centro de datos de NVIDIA (DCGM) es un conjunto de herramientas de NVIDIA que te permiten administrar y supervisar las GPU de NVIDIA. Vertex AI Inference exporta automáticamente las métricas de DCGM de Vertex AI a Cloud Monitoring si tus extremos utilizan GPUs compatibles. Estas métricas proporcionan una vista integral de la utilización, el rendimiento y el estado de la GPU.

Requisitos previos

Antes de comenzar, asegúrate de que tu proyecto tenga habilitado Cloud Monitoring. Consulta Habilita la API de Monitoring para obtener más información.

Usa las métricas de DCGM

Para ver las métricas de DCGM en el Explorador de métricas, haz lo siguiente:

Ve a la página Explorador de métricas en la consola de Google Cloud .

Ir al Explorador de métricas
En Selecciona una métrica, elige Prometheus Target.
En Categorías de métricas activas, selecciona Vertex.
En Métricas activas, selecciona la métrica deseada.
Haz clic en Aplicar.

También puedes consultar las métricas con Grafana o la API o IU de Prometheus.

Cuota

Las métricas de DCGM consumen la cuota de solicitudes de transferencia de series temporales por minuto de la API de Cloud Monitoring. Antes de habilitar los paquetes de métricas, verifica tu uso máximo reciente de esa cuota. Si ya te estás acercando a ese límite de cuota, puedes solicitar un aumento del límite de cuota.

Métricas de DCGM de Vertex AI

Los nombres de las métricas de Cloud Monitoring que figuran en esta tabla deben tener el prefijo prometheus.googleapis.com/. Sin embargo, el prefijo se omitió en las entradas de la tabla.

Junto con las etiquetas del recurso supervisado prometheus_target, todas las métricas de DCGM recopiladas en Vertex AI tienen las siguientes etiquetas adjuntas:

Etiquetas de GPU:

gpu_model: Es el modelo del dispositivo de GPU, como NVIDIA L4.
gpu_uuid: Es el UUID del dispositivo de GPU.
gpu_i_id: Es el ID de la instancia de GPU de varias instancias (MIG) de NVIDIA.

Etiquetas de Vertex AI:

deployed_model_id: Es el ID de un modelo implementado que procesa solicitudes de inferencia.
model_display_name: Es el nombre visible de un modelo implementado.
replica_id: Es el ID único que corresponde a la réplica del modelo implementado (nombre del Pod).
endpoint_id: Es el ID de un extremo del modelo.
endpoint_display_name: Es el nombre visible de un extremo del modelo.
product: Es el nombre de la función en Vertex AI. Siempre es Online Inference.

Nombre de la métrica de PromQL Nombre de la métrica de Cloud Monitoring
Clase, tipo, unidad Recursos supervisados	Descripción
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Búfer de fotogramas libre en MB.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es el búfer de fotogramas total de la GPU en MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es el búfer de fotogramas utilizado en MB.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Son las lecturas de temperatura actuales del dispositivo (en °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es el porcentaje de uso de la GPU.
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Porcentaje de uso de memoria.
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la temperatura de la memoria del dispositivo (en °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Uso de energía del dispositivo (en vatios).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frecuencia de reloj de SM (en MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Consumo total de energía de la GPU en mJ desde la última vez que se volvió a cargar el controlador.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que la interfaz de memoria del dispositivo está activa enviando o recibiendo datos.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de tiempo en que el motor de gráficos está activo.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la tasa de datos de recepción (lectura) de NvLink activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la tasa de datos de transmisión (tx) de NvLink activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la tasa de datos activos de PCIe rx (lectura) en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la tasa de datos de transmisión (tx) de PCIe activos en bytes, incluidos el encabezado y la carga útil.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que la canalización de fp16 está activa.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que la canalización de fp32 está activa.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que la canalización de FP64 está activa.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que cualquier canalización de tensor está activa.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Es la proporción de ciclos en los que un SM tiene al menos 1 warp asignado.

GPU compatibles

Se admiten todas las GPU de NVIDIA, excepto las siguientes, debido a limitaciones de recursos:

¿Qué sigue?

Obtén más información sobre el Explorador de métricas.

Consulta las métricas de DCGM de Vertex AI Inference Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.