Afficher les métriques DCGM d'inférence Vertex AI

Cette page explique comment explorer les métriques NVIDIA Data Center GPU Manager (DCGM) associées à vos points de terminaison Vertex AI Inference.

Qu'est-ce que DCGM ?

Le gestionnaire de GPU de centre de données (DCGM) NVIDIA est un ensemble d'outils NVIDIA qui vous permettent de gérer et de surveiller les GPU NVIDIA. Vertex AI Inference exporte automatiquement les métriques DCGM Vertex AI vers Cloud Monitoring si vos points de terminaison utilisent des GPU compatibles. Ces métriques fournissent une vue complète de l'utilisation, des performances et de l'état des GPU.

Prérequis

Avant de commencer, assurez-vous que Cloud Monitoring est activé pour votre projet. Pour en savoir plus, consultez Activer l'API Monitoring.

Utiliser les métriques DCGM

Pour afficher les métriques DCGM dans l'explorateur de métriques, procédez comme suit :

Accédez à la page Explorateur de métriques dans la console Google Cloud .

Accéder à l'explorateur de métriques
Sous Sélectionner une métrique, sélectionnez Cible Prometheus.
Sous Catégories de métriques actives, sélectionnez Vertex.
Sous Métriques actives, sélectionnez la métrique souhaitée.
Cliquez sur Appliquer.

Vous pouvez également interroger les métriques à l'aide de Grafana ou de l'API ou de l'UI Prometheus.

Quota

Les métriques DCGM consomment le quota Requêtes d'ingestion de séries temporelles par minute de l'API Cloud Monitoring. Avant d'activer les packages de métriques, vérifiez votre utilisation maximale récente de ce quota. Si vous approchez déjà de la limite de ce quota, vous pouvez demander une augmentation de la limite de quota.

Métriques Vertex AI DCGM

Les noms des métriques Cloud Monitoring figurant dans ce tableau doivent être précédés du préfixe prometheus.googleapis.com/. Ce préfixe a été omis dans les entrées du tableau.

En plus des libellés sur la ressource surveillée prometheus_target, tous les libellés DCGM collectés sur Vertex AI sont associés aux libellés suivants :

Étiquettes GPU :

gpu_model : modèle de l'appareil GPU, par exemple NVIDIA L4.
gpu_uuid : UUID de l'appareil GPU.
gpu_i_id : ID de l'instance de GPU multi-instance (MIG) NVIDIA.

Libellés Vertex AI :

deployed_model_id : ID d'un modèle déployé qui traite les requêtes d'inférence.
model_display_name : nom à afficher d'un modèle déployé.
replica_id : ID unique correspondant à l'instance répliquée du modèle déployé (nom du pod).
endpoint_id : ID d'un point de terminaison de modèle.
endpoint_display_name : nom à afficher d'un point de terminaison de modèle.
product : nom de la fonctionnalité sous Vertex AI. Cette valeur est toujours Online Inference.

Nom de la métrique PromQL Nom de la métrique Cloud Monitoring
Genre, Type, Unité Ressources surveillées	Description
`vertex_dcgm_fi_dev_fb_free` `vertex_dcgm_fi_dev_fb_free/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Tampon de l'image disponible en Mo.
`vertex_dcgm_fi_dev_fb_total` `vertex_dcgm_fi_dev_fb_total/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Tampon total de l'image du GPU, en Mo.
`vertex_dcgm_fi_dev_fb_used` `vertex_dcgm_fi_dev_fb_used/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Tampon de l'image utilisé en Mo.
`vertex_dcgm_fi_dev_gpu_temp` `vertex_dcgm_fi_dev_gpu_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Relevés de température actuels de l'appareil (en °C).
`vertex_dcgm_fi_dev_gpu_util` `vertex_dcgm_fi_dev_gpu_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilisation du GPU (en %).
`vertex_dcgm_fi_dev_mem_copy_util` `vertex_dcgm_fi_dev_mem_copy_util/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Utilisation de la mémoire (en %).
`vertex_dcgm_fi_dev_memory_temp` `vertex_dcgm_fi_dev_memory_temp/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Température de la mémoire de l'appareil (en °C).
`vertex_dcgm_fi_dev_power_usage` `vertex_dcgm_fi_dev_power_usage/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Consommation d'énergie de l'appareil (en watts).
`vertex_dcgm_fi_dev_sm_clock` `vertex_dcgm_fi_dev_sm_clock/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Fréquence d'horloge du multiprocesseur de flux (en MHz).
`vertex_dcgm_fi_dev_total_energy_consumption` `vertex_dcgm_fi_dev_total_energy_consumption/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target	Consommation d'énergie totale du GPU en mJ depuis le dernier rechargement du pilote.
`vertex_dcgm_fi_prof_dram_active` `vertex_dcgm_fi_prof_dram_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio des cycles pendant lesquels l'interface de mémoire de l'appareil est active pour envoyer ou recevoir des données.
`vertex_dcgm_fi_prof_gr_engine_active` `vertex_dcgm_fi_prof_gr_engine_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio de temps pendant lequel le moteur graphique est actif.
`vertex_dcgm_fi_prof_nvlink_rx_bytes` `vertex_dcgm_fi_prof_nvlink_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Taux de données rx (lecture) NvLink actives en octets, y compris l'en-tête et la charge utile.
`vertex_dcgm_fi_prof_nvlink_tx_bytes` `vertex_dcgm_fi_prof_nvlink_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Taux de données de transmission NvLink actives en octets, y compris l'en-tête et la charge utile.
`vertex_dcgm_fi_prof_pcie_rx_bytes` `vertex_dcgm_fi_prof_pcie_rx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Taux de données PCIe rx (lecture) actives en octets, y compris l'en-tête et la charge utile.
`vertex_dcgm_fi_prof_pcie_tx_bytes` `vertex_dcgm_fi_prof_pcie_tx_bytes/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Taux de données de transmission PCIe actives en octets, y compris l'en-tête et la charge utile.
`vertex_dcgm_fi_prof_pipe_fp16_active` `vertex_dcgm_fi_prof_pipe_fp16_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio des cycles pendant lesquels le pipeline fp16 est actif.
`vertex_dcgm_fi_prof_pipe_fp32_active` `vertex_dcgm_fi_prof_pipe_fp32_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio des cycles pendant lesquels le pipeline fp32 est actif.
`vertex_dcgm_fi_prof_pipe_fp64_active` `vertex_dcgm_fi_prof_pipe_fp64_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio des cycles pendant lesquels le pipeline fp64 est actif.
`vertex_dcgm_fi_prof_pipe_tensor_active` `vertex_dcgm_fi_prof_pipe_tensor_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio des cycles pendant lesquels un canal Tensor est actif.
`vertex_dcgm_fi_prof_sm_active` `vertex_dcgm_fi_prof_sm_active/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target	Ratio de cycles où un SM a au moins un warp associé.

GPU compatibles

Tous les GPU NVIDIA sont compatibles, à l'exception des suivants en raison de contraintes de ressources :

Étapes suivantes

En savoir plus sur l'explorateur de métriques

Afficher les métriques DCGM d'inférence Vertex AI Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.