Questa pagina illustra come esplorare le metriche di NVIDIA Data Center GPU Manager (DCGM) associate ai tuoi endpoint Vertex AI Inference.
Che cos'è DCGM
NVIDIA Data Center GPU Manager (DCGM) è un insieme di strumenti di NVIDIA che consentono di gestire e monitorare le GPU NVIDIA. Vertex AI Inference esporta automaticamente le metriche DCGM di Vertex AI in Cloud Monitoring se i tuoi endpoint utilizzano GPU supportate. Queste metriche forniscono una visione completa dell'utilizzo, delle prestazioni e dell'integrità della GPU.
Prerequisiti
Prima di iniziare, assicurati che Cloud Monitoring sia attivato per il tuo progetto. Per ulteriori informazioni, consulta la sezione Attivare l'API Monitoring.
Utilizzare le metriche DCGM
Per visualizzare le metriche DCGM in Metrics Explorer:
Vai alla pagina Esplora metriche nella console Google Cloud .
Nella sezione Seleziona una metrica, seleziona Target Prometheus.
In Categorie di metriche attive, seleziona Vertex.
In Metriche attive, seleziona la metrica che preferisci.
Fai clic su Applica.
Puoi anche eseguire query sulle metriche utilizzando Grafana, o l'API o la UI di Prometheus.
Quota
Le metriche DCGM utilizzano la quota Richieste di importazione di serie temporali al minuto dell'API Cloud Monitoring. Prima di attivare i pacchetti di metriche, controlla il picco di utilizzo recente di questa quota. Se stai già per raggiungere il limite di quota, puoi richiedere un aumento del limite di quota.
Metriche DCGM di Vertex AI
I nomi delle metriche di Cloud Monitoring in questa tabella devono avere il prefisso
prometheus.googleapis.com/. Questo prefisso è stato omesso dalle voci della tabella.
Oltre alle etichette sulla risorsa monitorata prometheus_target, tutte le metriche DCGM raccolte su Vertex AI hanno le seguenti etichette associate:
Etichette GPU:
gpu_model: il modello del dispositivo GPU, ad esempioNVIDIA L4.gpu_uuid: l'UUID del dispositivo GPU.gpu_i_id: l'ID istanza NVIDIA Multi-Instance GPU (MIG).
Etichette Vertex AI:
-
deployed_model_id: l'ID di un modello di cui è stato eseguito il deployment e che gestisce le richieste di inferenza. model_display_name: il nome visualizzato di un modello di cui è stato eseguito il deployment.-
replica_id: l'ID univoco corrispondente alla replica del modello di cui è stato eseguito il deployment (nome del pod). endpoint_id: l'ID di un endpoint del modello.endpoint_display_name: il nome visualizzato di un endpoint del modello.-
product: il nome della funzionalità in Vertex AI. Questo valore è sempreOnline Inference.
| Nome metrica PromQL Nome metrica Cloud Monitoring |
|
|---|---|
|
Tipo, unità
Risorse monitorate | Descrizione |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Buffer di frame libero in MB. |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Framebuffer totale della GPU in MB. |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Frame buffer utilizzato in MB. |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Letture della temperatura attuale per il dispositivo (in °C). |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Utilizzo GPU (in %). |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Utilizzo della memoria (in %). |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Temperatura della memoria del dispositivo (in °C). |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Consumo energetico del dispositivo (in watt). |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Frequenza di clock SM (in MHz). |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
|
Consumo energetico totale della GPU in mJ dall'ultimo ricaricamento del driver. |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra i cicli in cui l'interfaccia di memoria del dispositivo è attiva per l'invio o la ricezione di dati. |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra il tempo in cui il motore della grafica è attivo. |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il tasso di dati rx (lettura) NvLink attivi in byte, inclusi intestazione e payload. |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il tasso di trasmissione (tx) dei dati NvLink attivi in byte, inclusi intestazione e payload. |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il tasso di dati PCIe rx (lettura) attivi in byte, inclusi sia l'intestazione che il payload. |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il tasso di dati PCIe tx (trasmissione) attivi in byte, inclusi sia l'intestazione che il payload. |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra i cicli in cui la pipeline fp16 è attiva. |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra i cicli in cui la pipeline FP32 è attiva. |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra i cicli in cui la pipeline fp64 è attiva. |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra i cicli in cui è attiva una pipeline tensoriale. |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Il rapporto tra i cicli a cui è assegnato almeno un warp. |
GPU supportate
Sono supportate tutte le GPU NVIDIA, ad eccezione delle seguenti, a causa di vincoli delle risorse:
Passaggi successivi
- Scopri di più su Esplora metriche.