Diese Seite wurde von der Cloud Translation API übersetzt.

DCGM-Messwerte für Vertex AI-Inferenz ansehen

Auf dieser Seite wird beschrieben, wie Sie NVIDIA Data Center GPU Manager (DCGM)-Messwerte für Ihre Vertex AI-Inferenzendpunkte ansehen.

Was ist DCGM?

NVIDIA Data Center GPU Manager (DCGM) ist eine Reihe von Tools von NVIDIA, mit denen Sie NVIDIA-GPUs verwalten und überwachen können. Vertex AI Inference exportiert automatisch Vertex AI DCGM-Messwerte in Cloud Monitoring, wenn Ihre Endpunkte unterstützte GPUs verwenden. Diese Messwerte bieten einen umfassenden Überblick über GPU-Auslastung, ‑Leistung und ‑Zustand.

Vorbereitung

Prüfen Sie zuerst, ob Cloud Monitoring für Ihr Projekt aktiviert ist. Weitere Informationen finden Sie unter Monitoring API aktivieren.

DCGM-Messwerte verwenden

So rufen Sie DCGM-Messwerte im Metrics Explorer auf:

Rufen Sie in der Google Cloud Console die Seite Metrics Explorer auf.

Zum Metrics Explorer
Wählen Sie unter Messwert auswählen die Option Prometheus-Ziel aus.
Wählen Sie unter Aktive Messwertkategorien die Option Vertex aus.
Wählen Sie unter Aktive Messwerte den gewünschten Messwert aus.
Klicken Sie auf Übernehmen.

Sie können Messwerte auch mit Grafana oder der Prometheus API oder UI abfragen.

Kontingent

DCGM-Messwerte verbrauchen Kontingent für Zeitachsenaufnahmeanfragen pro Minute der Cloud Monitoring API. Bevor Sie die Messwertpakete aktivieren, prüfen Sie Ihre letzte Spitzennutzung dieses Kontingents. Wenn Sie dieses Kontingentlimit bereits fast erreicht haben, können Sie ein höheres Kontingent anfordern.

DCGM-Messwerte für Vertex AI

Die Cloud Monitoring-Messwertnamen in dieser Tabelle müssen das Präfix prometheus.googleapis.com/ haben. Dieses Präfix wurde in den Einträgen der Tabelle weggelassen.

Zusammen mit den Labels für die überwachte prometheus_target-Ressource haben alle erfassten DCGM-Messwerte in Vertex AI die folgenden Labels:

GPU-Labels:

gpu_model: Das GPU-Gerätemodell, z. B. NVIDIA L4.
gpu_uuid: Die UUID des GPU-Geräts.
gpu_i_id: Die Instanz-ID der NVIDIA-GPU mit mehreren Instanzen (Multi-Instance GPU, MIG).

Vertex AI-Labels:

deployed_model_id: Die ID eines bereitgestellten Modells, das Inferenzanfragen verarbeitet.
model_display_name: Der Anzeigename eines bereitgestellten Modells.
replica_id: Die eindeutige ID des bereitgestellten Modellreplikats (Pod-Name).
endpoint_id: die ID eines Modellendpunkts.
endpoint_display_name: Der Anzeigename eines Modellendpunkts.
product: Der Name des Features in Vertex AI. Dies ist immer Online Inference.

PromQL-Messwertname Cloud Monitoring-Messwertname
Art, Typ, Einheit Überwachte Ressourcen	Beschreibung
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Freier Frame-Puffer in MB.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Gesamter Framebuffer der GPU in MB.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Genutzter Framebuffer in MB.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Aktuelle Temperaturmessungen für das Gerät (in °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	GPU-Auslastung in %.
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Arbeitsspeicherauslastung (in %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Arbeitsspeichertemperatur des Geräts (in °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Stromverbrauch des Geräts (in Watt).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	SM-Taktfrequenz (in MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Gesamtenergieverbrauch der GPU in mJ seit dem letzten Neuladen des Treibers.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zyklen, in denen die Gerätespeicherschnittstelle aktiv Daten sendet oder empfängt.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zeit, in der die Grafik-Engine aktiv ist.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Die Rate der aktiven NvLink-Empfangsdaten (Lesen) in Byte, einschließlich Header und Nutzlast.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Die Rate der aktiven NvLink-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Die Rate der aktiven PCIe-Empfangsdaten (Lesevorgänge) in Byte, einschließlich Header und Nutzlast.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Die Rate der aktiven PCIe-Übertragungsdaten (in Byte), einschließlich Header und Nutzlast.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zyklen, in denen die fp16-Pipe aktiv ist.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zyklen, in denen die fp32-Pipe aktiv ist.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zyklen, in denen die fp64-Pipe aktiv ist.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zyklen, in denen eine beliebige Tensor Pipe aktiv ist.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Das Verhältnis der Zyklen, in denen einer SM mindestens 1 Warp zugewiesen ist.

Unterstützte GPUs

Alle NVIDIA-GPUs werden unterstützt, mit Ausnahme der folgenden, da Ressourcenbeschränkungen bestehen:

Nächste Schritte

Weitere Informationen zum Messwert-Explorer

Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.

Zuletzt aktualisiert: 2025-10-19 (UTC).