Visualizza le metriche DCGM di Vertex AI Inference

Questa pagina illustra come esplorare le metriche di NVIDIA Data Center GPU Manager (DCGM) associate ai tuoi endpoint Vertex AI Inference.

Che cos'è DCGM

NVIDIA Data Center GPU Manager (DCGM) è un insieme di strumenti di NVIDIA che consentono di gestire e monitorare le GPU NVIDIA. Vertex AI Inference esporta automaticamente le metriche DCGM di Vertex AI in Cloud Monitoring se i tuoi endpoint utilizzano GPU supportate. Queste metriche forniscono una visione completa dell'utilizzo, delle prestazioni e dell'integrità della GPU.

Prerequisiti

Prima di iniziare, assicurati che Cloud Monitoring sia attivato per il tuo progetto. Per ulteriori informazioni, consulta la sezione Attivare l'API Monitoring.

Utilizzare le metriche DCGM

Per visualizzare le metriche DCGM in Metrics Explorer:

Vai alla pagina Esplora metriche nella console Google Cloud .

Vai a Esplora metriche
Nella sezione Seleziona una metrica, seleziona Target Prometheus.
In Categorie di metriche attive, seleziona Vertex.
In Metriche attive, seleziona la metrica che preferisci.
Fai clic su Applica.

Puoi anche eseguire query sulle metriche utilizzando Grafana, o l'API o la UI di Prometheus.

Quota

Le metriche DCGM utilizzano la quota Richieste di importazione di serie temporali al minuto dell'API Cloud Monitoring. Prima di attivare i pacchetti di metriche, controlla il picco di utilizzo recente di questa quota. Se stai già per raggiungere il limite di quota, puoi richiedere un aumento del limite di quota.

Metriche DCGM di Vertex AI

I nomi delle metriche di Cloud Monitoring in questa tabella devono avere il prefisso prometheus.googleapis.com/. Questo prefisso è stato omesso dalle voci della tabella.

Oltre alle etichette sulla risorsa monitorata prometheus_target, tutte le metriche DCGM raccolte su Vertex AI hanno le seguenti etichette associate:

Etichette GPU:

gpu_model: il modello del dispositivo GPU, ad esempio NVIDIA L4.
gpu_uuid: l'UUID del dispositivo GPU.
gpu_i_id: l'ID istanza NVIDIA Multi-Instance GPU (MIG).

Etichette Vertex AI:

deployed_model_id: l'ID di un modello di cui è stato eseguito il deployment e che gestisce le richieste di inferenza.
model_display_name: il nome visualizzato di un modello di cui è stato eseguito il deployment.
replica_id: l'ID univoco corrispondente alla replica del modello di cui è stato eseguito il deployment (nome del pod).
endpoint_id: l'ID di un endpoint del modello.
endpoint_display_name: il nome visualizzato di un endpoint del modello.
product: il nome della funzionalità in Vertex AI. Questo valore è sempre Online Inference.

Nome metrica PromQL Nome metrica Cloud Monitoring
Tipo, unità Risorse monitorate	Descrizione
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Buffer di frame libero in MB.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Framebuffer totale della GPU in MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frame buffer utilizzato in MB.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Letture della temperatura attuale per il dispositivo (in °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilizzo GPU (in %).
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilizzo della memoria (in %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Temperatura della memoria del dispositivo (in °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Consumo energetico del dispositivo (in watt).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Frequenza di clock SM (in MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Consumo energetico totale della GPU in mJ dall'ultimo ricaricamento del driver.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra i cicli in cui l'interfaccia di memoria del dispositivo è attiva per l'invio o la ricezione di dati.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra il tempo in cui il motore della grafica è attivo.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il tasso di dati rx (lettura) NvLink attivi in byte, inclusi intestazione e payload.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il tasso di trasmissione (tx) dei dati NvLink attivi in byte, inclusi intestazione e payload.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il tasso di dati PCIe rx (lettura) attivi in byte, inclusi sia l'intestazione che il payload.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il tasso di dati PCIe tx (trasmissione) attivi in byte, inclusi sia l'intestazione che il payload.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra i cicli in cui la pipeline fp16 è attiva.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra i cicli in cui la pipeline FP32 è attiva.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra i cicli in cui la pipeline fp64 è attiva.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra i cicli in cui è attiva una pipeline tensoriale.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Il rapporto tra i cicli a cui è assegnato almeno un warp.

GPU supportate

Sono supportate tutte le GPU NVIDIA, ad eccezione delle seguenti, a causa di vincoli delle risorse:

Passaggi successivi

Scopri di più su Esplora metriche.

Visualizza le metriche DCGM di Vertex AI Inference Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.