Conferir métricas do DCGM de inferência da Vertex AI

Nesta página, mostramos como analisar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos endpoints de inferência da Vertex AI.

O que é o DCGM?

O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que permitem gerenciar e monitorar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os endpoints usarem GPUs compatíveis. Essas métricas oferecem uma visão abrangente da utilização, do desempenho e da integridade da GPU.

Pré-requisitos

Antes de começar, verifique se o Cloud Monitoring está ativado no projeto. Consulte Ativar a API Monitoring para mais informações.

Usar métricas do DCGM

Para conferir as métricas do DCGM no Metrics Explorer, faça o seguinte:

Acesse a página do Metrics Explorer no console do Google Cloud .

Acessar o Metrics Explorer
Em Selecionar uma métrica, escolha Destino do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica desejada.
Clique em Aplicar.

Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.

Cota

As métricas do DCGM consomem a cota de Solicitações de ingestão de séries temporais por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique o pico de uso recente dessa cota. Se você já estiver se aproximando desse limite, solicite um aumento.

Métricas do DCGM da Vertex AI

Os nomes das métricas do Cloud Monitoring nesta tabela precisam ser prefixados com prometheus.googleapis.com/. Esse prefixo foi omitido das entradas na tabela.

Além dos rótulos no recurso monitorado prometheus_target, todas as métricas do DCGM coletadas na Vertex AI têm os seguintes rótulos anexados:

Rótulos da GPU:

gpu_model: o modelo do dispositivo de GPU, como NVIDIA L4.
gpu_uuid: o UUID do dispositivo da GPU.
gpu_i_id: o ID da instância de GPU com várias instâncias (MIG) da NVIDIA.

Rótulos da Vertex AI:

deployed_model_id: o ID de um modelo implantado que atende a solicitações de inferência.
model_display_name: o nome de exibição de um modelo implantado.
replica_id: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod).
endpoint_id: o ID de um endpoint de modelo.
endpoint_display_name: o nome de exibição de um endpoint de modelo.
product: o nome do recurso na Vertex AI. Esse valor é sempre Online Inference.

Nome da métrica do PromQL Nome da métrica do Cloud Monitoring
Tipo, Classe, Unidade Recursos monitorados	Descrição
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Framebuffer livre em MB.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Framebuffer total da GPU em MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Framebuffer usado em MB.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Leituras atuais de temperatura do dispositivo (em °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Uso da GPU (em %).
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Uso da memória (em %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Temperatura da memória do dispositivo (em °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Consumo de energia do dispositivo (em watts).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frequência do clock do SM (em MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Consumo de energia total da GPU em mJ desde a última recarga do driver.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que a interface de memória do dispositivo está ativa enviando ou recebendo dados.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de tempo em que o motor gráfico está ativo.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados ativos de rx (leitura) do NvLink em bytes, incluindo cabeçalho e payload.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados ativos de tx (transmissão) do NvLink em bytes, incluindo cabeçalho e payload.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados ativos de rx (leitura) do PCIe em bytes, incluindo cabeçalho e payload.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A taxa de dados ativos de tx (transmissão) do PCIe em bytes, incluindo cabeçalho e payload.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que o pipe fp16 está ativo.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que o pipe fp32 está ativo.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que o pipe fp64 está ativo.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que qualquer pipe tensor está ativo.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	A proporção de ciclos em que uma SM tem pelo menos um warp atribuído.

GPUs com suporte

Todas as GPUs NVIDIA são compatíveis, exceto as seguintes, devido a restrições de recursos:

A seguir

Saiba mais sobre o Metrics Explorer.

Conferir métricas do DCGM de inferência da Vertex AI Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.