Nesta página, mostramos como analisar as métricas do NVIDIA Data Center GPU Manager (DCGM) associadas aos endpoints de inferência da Vertex AI.
O que é o DCGM?
O NVIDIA Data Center GPU Manager (DCGM) é um conjunto de ferramentas da NVIDIA que permitem gerenciar e monitorar GPUs NVIDIA. A inferência da Vertex AI exporta automaticamente as métricas do DCGM da Vertex AI para o Cloud Monitoring se os endpoints usarem GPUs compatíveis. Essas métricas oferecem uma visão abrangente da utilização, do desempenho e da integridade da GPU.
Pré-requisitos
Antes de começar, verifique se o Cloud Monitoring está ativado no projeto. Consulte Ativar a API Monitoring para mais informações.
Usar métricas do DCGM
Para conferir as métricas do DCGM no Metrics Explorer, faça o seguinte:
Acesse a página do Metrics Explorer no console do Google Cloud .
Em Selecionar uma métrica, escolha Destino do Prometheus.
Em Categorias de métricas ativas, selecione Vertex.
Em Métricas ativas, selecione a métrica desejada.
Clique em Aplicar.
Também é possível consultar métricas usando o Grafana ou a API ou interface do Prometheus.
Cota
As métricas do DCGM consomem a cota de Solicitações de ingestão de séries temporais por minuto da API Cloud Monitoring. Antes de ativar os pacotes de métricas, verifique o pico de uso recente dessa cota. Se você já estiver se aproximando desse limite, solicite um aumento.
Métricas do DCGM da Vertex AI
Os nomes das métricas do Cloud Monitoring nesta tabela precisam ser prefixados com
prometheus.googleapis.com/. Esse prefixo foi omitido das
entradas na tabela.
Além dos rótulos no recurso monitorado prometheus_target, todas as métricas do DCGM coletadas na Vertex AI têm os seguintes rótulos anexados:
Rótulos da GPU:
gpu_model: o modelo do dispositivo de GPU, comoNVIDIA L4.gpu_uuid: o UUID do dispositivo da GPU.gpu_i_id: o ID da instância de GPU com várias instâncias (MIG) da NVIDIA.
Rótulos da Vertex AI:
-
deployed_model_id: o ID de um modelo implantado que atende a solicitações de inferência. model_display_name: o nome de exibição de um modelo implantado.-
replica_id: o ID exclusivo correspondente à réplica do modelo implantado (nome do pod). endpoint_id: o ID de um endpoint de modelo.endpoint_display_name: o nome de exibição de um endpoint de modelo.-
product: o nome do recurso na Vertex AI. Esse valor é sempreOnline Inference.
| Nome da métrica do PromQL Nome da métrica do Cloud Monitoring |
|
|---|---|
|
Tipo, Classe, Unidade
Recursos monitorados | Descrição |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Framebuffer livre em MB. |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Framebuffer total da GPU em MB. |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Framebuffer usado em MB. |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Leituras atuais de temperatura do dispositivo (em °C). |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Uso da GPU (em %). |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Uso da memória (em %). |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Temperatura da memória do dispositivo (em °C). |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Consumo de energia do dispositivo (em watts). |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Frequência do clock do SM (em MHz). |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
|
Consumo de energia total da GPU em mJ desde a última recarga do driver. |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de ciclos em que a interface de memória do dispositivo está ativa enviando ou recebendo dados. |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de tempo em que o motor gráfico está ativo. |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A taxa de dados ativos de rx (leitura) do NvLink em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A taxa de dados ativos de tx (transmissão) do NvLink em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A taxa de dados ativos de rx (leitura) do PCIe em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A taxa de dados ativos de tx (transmissão) do PCIe em bytes, incluindo cabeçalho e payload. |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de ciclos em que o pipe fp16 está ativo. |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de ciclos em que o pipe fp32 está ativo. |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de ciclos em que o pipe fp64 está ativo. |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de ciclos em que qualquer pipe tensor está ativo. |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
A proporção de ciclos em que uma SM tem pelo menos um warp atribuído. |
GPUs com suporte
Todas as GPUs NVIDIA são compatíveis, exceto as seguintes, devido a restrições de recursos:
A seguir
- Saiba mais sobre o Metrics Explorer.