Cette page explique comment explorer les métriques NVIDIA Data Center GPU Manager (DCGM) associées à vos points de terminaison Vertex AI Inference.
Qu'est-ce que DCGM ?
Le gestionnaire de GPU de centre de données (DCGM) NVIDIA est un ensemble d'outils NVIDIA qui vous permettent de gérer et de surveiller les GPU NVIDIA. Vertex AI Inference exporte automatiquement les métriques DCGM Vertex AI vers Cloud Monitoring si vos points de terminaison utilisent des GPU compatibles. Ces métriques fournissent une vue complète de l'utilisation, des performances et de l'état des GPU.
Prérequis
Avant de commencer, assurez-vous que Cloud Monitoring est activé pour votre projet. Pour en savoir plus, consultez Activer l'API Monitoring.
Utiliser les métriques DCGM
Pour afficher les métriques DCGM dans l'explorateur de métriques, procédez comme suit :
Accédez à la page Explorateur de métriques dans la console Google Cloud .
Sous Sélectionner une métrique, sélectionnez Cible Prometheus.
Sous Catégories de métriques actives, sélectionnez Vertex.
Sous Métriques actives, sélectionnez la métrique souhaitée.
Cliquez sur Appliquer.
Vous pouvez également interroger les métriques à l'aide de Grafana ou de l'API ou de l'UI Prometheus.
Quota
Les métriques DCGM consomment le quota Requêtes d'ingestion de séries temporelles par minute de l'API Cloud Monitoring. Avant d'activer les packages de métriques, vérifiez votre utilisation maximale récente de ce quota. Si vous approchez déjà de la limite de ce quota, vous pouvez demander une augmentation de la limite de quota.
Métriques Vertex AI DCGM
Les noms des métriques Cloud Monitoring figurant dans ce tableau doivent être précédés du préfixe prometheus.googleapis.com/. Ce préfixe a été omis dans les entrées du tableau.
En plus des libellés sur la ressource surveillée prometheus_target, tous les libellés DCGM collectés sur Vertex AI sont associés aux libellés suivants :
Étiquettes GPU :
gpu_model: modèle de l'appareil GPU, par exempleNVIDIA L4.gpu_uuid: UUID de l'appareil GPU.gpu_i_id: ID de l'instance de GPU multi-instance (MIG) NVIDIA.
Libellés Vertex AI :
-
deployed_model_id: ID d'un modèle déployé qui traite les requêtes d'inférence. model_display_name: nom à afficher d'un modèle déployé.-
replica_id: ID unique correspondant à l'instance répliquée du modèle déployé (nom du pod). endpoint_id: ID d'un point de terminaison de modèle.endpoint_display_name: nom à afficher d'un point de terminaison de modèle.-
product: nom de la fonctionnalité sous Vertex AI. Cette valeur est toujoursOnline Inference.
| Nom de la métrique PromQL
Nom de la métrique Cloud Monitoring |
|
|---|---|
|
Genre, Type, Unité
Ressources surveillées | Description |
vertex_dcgm_fi_dev_fb_freevertex_dcgm_fi_dev_fb_free/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Tampon de l'image disponible en Mo. |
vertex_dcgm_fi_dev_fb_totalvertex_dcgm_fi_dev_fb_total/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Tampon total de l'image du GPU, en Mo. |
vertex_dcgm_fi_dev_fb_usedvertex_dcgm_fi_dev_fb_used/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Tampon de l'image utilisé en Mo. |
vertex_dcgm_fi_dev_gpu_tempvertex_dcgm_fi_dev_gpu_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Relevés de température actuels de l'appareil (en °C). |
vertex_dcgm_fi_dev_gpu_utilvertex_dcgm_fi_dev_gpu_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Utilisation du GPU (en %). |
vertex_dcgm_fi_dev_mem_copy_utilvertex_dcgm_fi_dev_mem_copy_util/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Utilisation de la mémoire (en %). |
vertex_dcgm_fi_dev_memory_tempvertex_dcgm_fi_dev_memory_temp/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Température de la mémoire de l'appareil (en °C). |
vertex_dcgm_fi_dev_power_usagevertex_dcgm_fi_dev_power_usage/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Consommation d'énergie de l'appareil (en watts). |
vertex_dcgm_fi_dev_sm_clockvertex_dcgm_fi_dev_sm_clock/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Fréquence d'horloge du multiprocesseur de flux (en MHz). |
vertex_dcgm_fi_dev_total_energy_consumptionvertex_dcgm_fi_dev_total_energy_consumption/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
|
Consommation d'énergie totale du GPU en mJ depuis le dernier rechargement du pilote. |
vertex_dcgm_fi_prof_dram_activevertex_dcgm_fi_prof_dram_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio des cycles pendant lesquels l'interface de mémoire de l'appareil est active pour envoyer ou recevoir des données. |
vertex_dcgm_fi_prof_gr_engine_activevertex_dcgm_fi_prof_gr_engine_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio de temps pendant lequel le moteur graphique est actif. |
vertex_dcgm_fi_prof_nvlink_rx_bytesvertex_dcgm_fi_prof_nvlink_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Taux de données rx (lecture) NvLink actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_nvlink_tx_bytesvertex_dcgm_fi_prof_nvlink_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Taux de données de transmission NvLink actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_pcie_rx_bytesvertex_dcgm_fi_prof_pcie_rx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Taux de données PCIe rx (lecture) actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_pcie_tx_bytesvertex_dcgm_fi_prof_pcie_tx_bytes/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Taux de données de transmission PCIe actives en octets, y compris l'en-tête et la charge utile. |
vertex_dcgm_fi_prof_pipe_fp16_activevertex_dcgm_fi_prof_pipe_fp16_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio des cycles pendant lesquels le pipeline fp16 est actif. |
vertex_dcgm_fi_prof_pipe_fp32_activevertex_dcgm_fi_prof_pipe_fp32_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio des cycles pendant lesquels le pipeline fp32 est actif. |
vertex_dcgm_fi_prof_pipe_fp64_activevertex_dcgm_fi_prof_pipe_fp64_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio des cycles pendant lesquels le pipeline fp64 est actif. |
vertex_dcgm_fi_prof_pipe_tensor_activevertex_dcgm_fi_prof_pipe_tensor_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio des cycles pendant lesquels un canal Tensor est actif. |
vertex_dcgm_fi_prof_sm_activevertex_dcgm_fi_prof_sm_active/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
|
Ratio de cycles où un SM a au moins un warp associé. |
GPU compatibles
Tous les GPU NVIDIA sont compatibles, à l'exception des suivants en raison de contraintes de ressources :
Étapes suivantes
- En savoir plus sur l'explorateur de métriques