Auf dieser Seite wird beschrieben, wie Sie NVIDIA Data Center GPU Manager (DCGM)-Messwerte für Ihre Vertex AI-Inferenzendpunkte ansehen.
Was ist DCGM?
NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. Vertex AI Inference exportiert automatisch Vertex AI DCGM-Messwerte in Cloud Monitoring, wenn Ihre Endpunkte unterstützte GPUs verwenden. Diese Messwerte bieten einen umfassenden Überblick über GPU-Auslastung, ‑Leistung und ‑Zustand.
Vorbereitung
Prüfen Sie zuerst, ob Cloud Monitoring für Ihr Projekt aktiviert ist. Weitere Informationen finden Sie unter Monitoring API aktivieren.
DCGM-Messwerte verwenden
So rufen Sie DCGM-Messwerte im Metrics Explorer auf:
Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.
Wählen Sie unter Messwert auswählen die Option Prometheus-Ziel aus.
Wählen Sie unter Aktive Messwertkategorien die Option Vertex aus.
Wählen Sie unter Aktive Messwerte den gewünschten Messwert aus.
Klicken Sie auf Übernehmen.
Sie können Messwerte auch mit Grafana oder der Prometheus API oder UI abfragen.
Kontingent
DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn Sie dieses Kontingentlimit bereits fast erreicht haben, können Sie ein höheres Kontingent anfordern.
DCGM-Messwerte für Vertex AI
Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/ haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.
Zusammen mit den Labels für die überwachte prometheus_target-Ressource haben alle erfassten DCGM-Messwerte in Vertex AI die folgenden Labels:
GPU-Labels:
gpu_model: Das GPU-Gerätemodell, z. B.NVIDIA L4.gpu_uuid: Die UUID des GPU-Geräts.gpu_i_id: Die Instanz-ID der NVIDIA-GPU mit mehreren Instanzen (Multi-Instance GPU, MIG).
Vertex AI-Labels:
-
deployed_model_id: Die ID eines bereitgestellten Modells, das Inferenzanfragen verarbeitet. model_display_name: Der Anzeigename eines bereitgestellten Modells.-
replica_id: Die eindeutige ID des bereitgestellten Modellreplikats (Pod-Name). endpoint_id: die ID eines Modellendpunkts.endpoint_display_name: Der Anzeigename eines Modellendpunkts.-
product: Der Name des Features in Vertex AI. Dies ist immerOnline Inference.
| PromQL-Messwertname Cloud Monitoring-Messwertname |
|
|---|---|
|
Art, Typ, Einheit
Überwachte Ressourcen | Beschreibung |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Freier Frame-Puffer in MB. |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Gesamter Framebuffer der GPU in MB. |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Genutzter Framebuffer in MB. |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Aktuelle Temperaturmessungen für das Gerät (in °C). |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
GPU-Auslastung in %. |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Arbeitsspeicherauslastung (in %). |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Arbeitsspeichertemperatur des Geräts (in °C). |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Stromverbrauch des Geräts (in Watt). |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
SM-Taktfrequenz (in MHz). |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
|
Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers. |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv Daten sendet oder empfängt. |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zeit, in der die Grafik-Engine aktiv ist. |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Die Rate der aktiven NvLink-Empfangsdaten (Lesen) in Byte, einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Die Rate der aktiven NvLink-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Die Rate der aktiven PCIe-Empfangsdaten (Lesevorgänge) in Byte, einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Die Rate der aktiven PCIe-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast. |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist. |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist. |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist. |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist. |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist. |
Unterstützte GPUs
Alle NVIDIA-GPUs werden unterstützt, mit Ausnahme der folgenden, da Ressourcenbeschränkungen bestehen: