אתם יכולים לעקוב אחרי השימוש ב-GPU, הביצועים והתקינות שלו על ידי הגדרת GKE לשליחת מדדים של NVIDIA Data Center GPU Manager (DCGM) אל Cloud Monitoring.
כשמפעילים את מדדי DCGM, GKE מתקין את הכלי DCGM-Exporter, מתקין מנהלי התקנים של GPU שמנוהלים על ידי Google ופורס משאב ClusterPodMonitoring כדי לשלוח מדדים אל השירות המנוהל של Google Cloud ל-Prometheus. בגרסה 1.32.1-gke.1357000 ואילך, חבילת המדדים של DCGM מופעלת כברירת מחדל באשכולות חדשים של GKE שנוצרו. באשכולות שמופעלות בהם גרסאות קודמות, אפשר להפעיל את איסוף המדדים של DCGM באמצעות מסוף Google Cloud , ה-CLI של gcloud או Terraform.
אפשר גם להגדיר DCGM בניהול עצמי אם רוצים להתאים אישית את קבוצת המדדים של DCGM או אם יש לכם אשכול שלא עומד בדרישות למדדים של DCGM בניהול.
מה זה DCGM
NVIDIA Data Center GPU Manager (DCGM) היא ערכת כלים של NVIDIA שמאפשרת לכם לנהל ולנטר מעבדים גרפיים של NVIDIA. DCGM חושף מבנים שונים של יכולת צפייה ומונים באמצעות מה שהוא מכנה fields. לכל שדה יש מזהה סמלי ומספר שדה.
רשימה מלאה של מזהי השדות זמינה בקישור NVIDIA DCGM list of Field IDs.
אם מפעילים מדדי DCGM ב-GKE, המדדים הנתמכים זמינים אוטומטית ב-Cloud Monitoring. המדדים האלה מספקים תמונה מקיפה של ניצול ה-GPU, הביצועים והתקינות.
- מדדי השימוש ב-GPU מציינים עד כמה ה-GPU שבמעקב עמוס, ואם הוא מנוצל בצורה יעילה לעיבוד משימות. הנתונים כוללים מדדים של עיבוד ליבה, זיכרון, קלט/פלט וצריכת חשמל.
- מדדי הביצועים של GPU מתייחסים ליעילות ולאפקטיביות של GPU בביצוע משימה חישובית. המדדים האלה כוללים את מהירות השעון והטמפרטורה.
- מדדי קלט/פלט של GPU כמו NVlink ו-PCIe מודדים את רוחב הפס של העברת הנתונים.
לפני שמתחילים
לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:
- מפעילים את ממשק ה-API של Google Kubernetes Engine. הפעלת Google Kubernetes Engine API
- אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה
gcloud components updateכדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.
הדרישות למדדים של NVIDIA Data Center GPU Manager (DCGM)
כדי לאסוף מדדים של NVIDIA Data Center GPU Manager (DCGM), אשכול GKE צריך לעמוד בדרישות הבאות:
- האשכולות צריכים להריץ את גרסת GKE 1.30.1-gke.1204000 או גרסה מתקדמת יותר.
- צריך להפעיל את האיסוף של מדדי המערכת
- צריך להפעיל את האוסף המנוהל של השירות המנוהל של Google Cloud ל-Prometheus
- מאגרי הצמתים צריכים להריץ מנהלי התקנים של GPU שמנוהלים על ידי GKE. המשמעות היא שצריך ליצור את מאגרי הצמתים באמצעות
defaultאוlatestעבור--gpu-driver-version. - ב-GKE גרסה 1.32.0-gke.1764000 ואילך, נאספים מדדי פרופיל לכל סוגי ה-GPU שנתמכים ב-GKE. בגרסאות קודמות של GKE, מדדי פרופילים נאספים רק עבור GPUs מסוג NVIDIA H100 80GB.
מגבלות
אם אתם מפעילים חבילת מדדים של NVIDIA Data Center GPU Manager (DCGM) שהופעלה באופן עצמאי, אתם צריכים להפסיק את האיסוף שלה לפני שתפעילו מדדים מנוהלים של NVIDIA Data Center GPU Manager (DCGM), אחרת יכול להיות שתקבלו מדדים כפולים או שגויים.
המדדים המנוהלים של DCGM, כולל המניפסטים הבסיסיים ותמונות הקונטיינרים, מיועדים לפעול רק באשכולות GKE. אל תשתמשו במדדים מנוהלים של DCGM באופן עצמאי, ואל תפעילו אותם מחוץ ל-GKE.
הגדרת איסוף של מדדים מ-DCGM
אפשר להפעיל את GKE כדי לאסוף מדדים של DCGM עבור אשכול קיים באמצעות מסוף Google Cloud , ה-CLI של gcloud או Terraform.
המסוף
-
חובה להשתמש באפשרות Default או Latest עבור GPU Driver Installation.
נכנסים לדף Google Kubernetes Engine במסוף Google Cloud .
לוחצים על שם האשכול.
לצד Cloud Monitoring, לוחצים על edit.
בוחרים באפשרות
SYSTEMואז באפשרותDCGM.לוחצים על 'שמירה'.
gcloud
יוצרים מאגר צמתים של GPU.
חובה להשתמש ב-
defaultאו ב-latestבשביל--gpu-driver-version.מעדכנים את האשכול:
gcloud container clusters update CLUSTER_NAME \ --location=COMPUTE_LOCATION \ --enable-managed-prometheus \ --monitoring=SYSTEM,DCGMמחליפים את מה שכתוב בשדות הבאים:
-
CLUSTER_NAME: השם של האשכול הקיים. -
COMPUTE_LOCATION: המיקום של Compute Engine של האשכול.
-
Terraform
כדי להגדיר את איסוף המדדים של DCGM באמצעות Terraform, אפשר לעיין בבלוק monitoring_config במאגר Terraform עבור google_container_cluster.
מידע כללי על שימוש ב- Google Cloud עם Terraform זמין במאמר Terraform עם Google Cloud.
שימוש במדדים של DCGM
אפשר לראות את מדדי DCGM באמצעות לוחות הבקרה במסוףGoogle Cloud או ישירות בדפים 'סקירה כללית של האשכול' ו'פרטי האשכול'. מידע נוסף מופיע במאמר בנושא הצגת מדדי יכולת התבוננות.
אפשר לראות את המדדים באמצעות לוח הבקרה של מדדי Grafana DCGM. מידע נוסף מפורט במאמר בנושא שאילתות באמצעות Grafana. אם נתקלים בשגיאות, אפשר לעיין במאמר בנושא תאימות ל-API.
תמחור
מדדי DCGM משתמשים ב-השירות המנוהל של Google Cloud ל-Prometheus כדי לטעון מדדים ל-Cloud Monitoring. החיובים על הטמעת המדדים האלה ב-Cloud Monitoring מבוססים על מספר הדגימות שהוטמעו.
מידע נוסף זמין במאמר בנושא תמחור של Cloud Monitoring.
מכסה
מדדי DCGM צורכים את המכסה Time series ingestion requests per minute של Cloud Monitoring API. לפני שמפעילים את חבילות המדדים, כדאי לבדוק את השימוש המקסימלי האחרון במכסה הזו. אם יש לכם הרבה אשכולות באותו פרויקט או שאתם כבר מתקרבים למגבלת המכסה הזו, אתם יכולים לבקש להגדיל את מכסת הפרויקט לפני הפעלת אחד מחבילות הניטור.
מדדי DCGM
שמות המדדים של Cloud Monitoring בטבלה הזו חייבים להתחיל בקידומת prometheus.googleapis.com/. התחילית הזו הושמטה מהערכים בטבלה.
בנוסף לתוויות במשאב שבמעקב prometheus_target, כל מדדי DCGM שנאספים ב-GKE כוללים את התוויות הבאות:
תוויות של יחידות GPU:
-
UUID: המזהה הייחודי האוניברסלי (UUID) של מכשיר ה-GPU -
device: שם מכשיר ה-GPU. -
gpu: מספר האינדקס כמספר שלם של מכשיר ה-GPU בצומת. לדוגמה, אם מחוברים 8 כרטיסי GPU, הערך הזה יכול להיות בין0ל-7. -
modelName: השם של דגם מכשיר ה-GPU, למשלNVIDIA L4.
תוויות Kubernetes:
-
container: השם של קונטיינר Kubernetes שמשתמש במכשיר ה-GPU. -
namespace: מרחב השמות של Kubernetes של ה-Pod והקונטיינר שמשתמשים במכשיר ה-GPU. -
pod: ה-Pod של Kubernetes שמשתמש במכשיר ה-GPU.
| שם המדד ב-PromQL שם המדד ב-Cloud Monitoring |
|
|---|---|
|
Kind, Type, Unit
Monitored resources Required GKE version |
תיאור |
DCGM_FI_DEV_FB_FREEDCGM_FI_DEV_FB_FREE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
האחסון הזמני של מסגרת ב-MB. |
DCGM_FI_DEV_FB_TOTALDCGM_FI_DEV_FB_TOTAL/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
סך מאגר הפריים של ה-GPU ב-MB. |
DCGM_FI_DEV_FB_USEDDCGM_FI_DEV_FB_USED/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
השימוש באחסון הזמני של מסגרת ב-MB. |
DCGM_FI_DEV_GPU_TEMPDCGM_FI_DEV_GPU_TEMP/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
קריאות הטמפרטורה הנוכחיות של המכשיר (במעלות צלזיוס). |
DCGM_FI_DEV_GPU_UTILDCGM_FI_DEV_GPU_UTIL/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
ניצול ה-GPU (ב-%). |
DCGM_FI_DEV_MEM_COPY_UTILDCGM_FI_DEV_MEM_COPY_UTIL/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
ניצול הזיכרון (באחוזים). |
DCGM_FI_DEV_MEMORY_TEMPDCGM_FI_DEV_MEMORY_TEMP/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
טמפרטורת הזיכרון של המכשיר (במעלות צלזיוס). |
DCGM_FI_DEV_POWER_USAGEDCGM_FI_DEV_POWER_USAGE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
צריכת החשמל של המכשיר (בוואט). |
DCGM_FI_DEV_SM_CLOCKDCGM_FI_DEV_SM_CLOCK/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
תדר השעון של SM (במגה-הרץ). |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTIONDCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter |
|
CUMULATIVE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
צריכת האנרגיה הכוללת של ה-GPU במילי-ג'ול מאז הטעינה האחרונה של מנהל ההתקן. |
DCGM_FI_PROF_DRAM_ACTIVEDCGM_FI_PROF_DRAM_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין המחזורים שבהם ממשק הזיכרון של המכשיר פעיל בשליחה או בקבלה של נתונים. |
DCGM_FI_PROF_GR_ENGINE_ACTIVEDCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין הזמן שבו מנוע הגרפיקה פעיל. |
DCGM_FI_PROF_NVLINK_RX_BYTESDCGM_FI_PROF_NVLINK_RX_BYTES/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
קצב הנתונים הפעילים של NvLink rx (קריאה) בבייט, כולל כותרת ומטען ייעודי. |
DCGM_FI_PROF_NVLINK_TX_BYTESDCGM_FI_PROF_NVLINK_TX_BYTES/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
קצב הנתונים הפעילים של NvLink tx (שידור) בבייט, כולל כותרת ומטען ייעודי. |
DCGM_FI_PROF_PCIE_RX_BYTESDCGM_FI_PROF_PCIE_RX_BYTES/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
שיעור הנתונים הפעילים של PCIe rx (קריאה) בבייטים, כולל כותרת ומטען ייעודי. |
DCGM_FI_PROF_PCIE_TX_BYTESDCGM_FI_PROF_PCIE_TX_BYTES/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
שיעור הנתונים הפעילים של PCIe tx (שידור) בבייט, כולל כותרת ומטען ייעודי. |
DCGM_FI_PROF_PIPE_FP16_ACTIVEDCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין המחזורים שבהם צינור ה-fp16 פעיל. |
DCGM_FI_PROF_PIPE_FP32_ACTIVEDCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין המחזורים שבהם צינור ה-fp32 פעיל. |
DCGM_FI_PROF_PIPE_FP64_ACTIVEDCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין המחזורים שבהם צינור fp64 פעיל. |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVEDCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין המחזורים שבהם צינור טנסור כלשהו פעיל. |
DCGM_FI_PROF_SM_ACTIVEDCGM_FI_PROF_SM_ACTIVE/gauge |
|
GAUGE, DOUBLE, 1
prometheus_target
1.30.1-gke.1204000 |
היחס בין מחזורים של SM שלפחות עיוות אחד הוקצה להם. |
כדי לעזור לכם להבין איך אפשר להשתמש במדדים האלה, קיבצנו אותם באופן הבא:
ניצול של Compute או Core
המדדים האלה מאפשרים לכם לזהות מכשירים שלא מנוצלים מספיק, ולשנות את החישוב או את הקצאת ה-GPU כדי לבצע אופטימיזציה של הניצול. ניצול נמוך של ה-GPU מצביע על כך שאולי אתם משלמים על קיבולת GPU גדולה יותר ממה שאתם צריכים. המדדים האלה יכולים לעזור לכם לחסוך בעלויות על ידי איחוד החישובים בפחות מכשירים.
DCGM_FI_DEV_GPU_UTIL
המדד הזה מייצג את חלקיק הזמן שבו ה-GPU היה פעיל.
השימוש הצפוי: סקירה כללית של השימוש הממוצע ב-GPU. המדד הזה דומה ל-DCGM_FI_PROF_GR_ENGINE_ACTIVE, שיכול להיות מדד מדויק יותר לניצול ה-GPU.
DCGM_FI_PROF_GR_ENGINE_ACTIVE
המדד הזה מייצג את רמת העומס של מנוע הגרפיקה בכל מרווח דגימה. הערך נגזר מהמספר הממוצע של מחזורים פעילים לעומת המספר המקסימלי האפשרי של מחזורים זמינים במרווח הדגימה. לדוגמה, אם במהלך מרווח דגימה של שנייה אחת היו זמינים 1,000 מחזורים, ובפועל היו פעילים בממוצע 324 מחזורים (ביצעו עבודה), ערך המדד שיתקבל יהיה 0.324. אפשר לפרש את זה בערך כך: (0.324 x 100) 32.4% שימוש.
השימוש הצפוי: סקירה כללית של השימוש הממוצע ב-GPU. ערכים גבוהים באופן עקבי של ניצול המשאבים מצביעים על כך שה-GPU עלול להוות צוואר בקבוק שגורם לבעיות בביצועי המערכת. ערכים נמוכים באופן עקבי של ניצול מצביעים על כך שהאפליקציה לא משתמשת במלוא כוח העיבוד הזמין.
DCGM_FI_PROF_PIPE_FP16_ACTIVE, DCGM_FI_PROF_PIPE_FP32_ACTIVE,
DCGM_FI_PROF_PIPE_FP64_ACTIVE, DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
המדדים האלה מייצגים את היחס בין מחזורי הפעילות של צינור GPU נתון לבין מחזורי הזמן שעברו בשיא הפעילות.
השימוש הצפוי: מדד שמשקף את מידת היעילות של השימוש בצינורות החישוב השונים ב-GPU.
DCGM_FI_PROF_SM_ACTIVE
המדד הזה מייצג את חלקיק הזמן שבו לפחות עיוות אחד היה פעיל בבלוק SM (Streaming Multiprocessor), בממוצע בכל ה-SM. לדוגמה, אם ל-GPU יש 80 יחידות SM זמינות, ובמהלך תקופת הדגימה 16 יחידות SM ביצעו עיוות, הערך sm_active שיתקבל יהיה (16/80) 0.20, שאפשר לפרש אותו כ-20% מהיחידות הזמינות של SM ביצעו עיוות.
השימוש הצפוי: מדד למידת המידה שבה נעשה שימוש במקביליות של ה-GPU.
ניצול הזיכרון
השימוש העיקרי במדדים האלה הוא לזיהוי מצבים שבהם למכשירי GPU אין מספיק זיכרון לאפליקציות. יכול להיות ששיפור הביצועים של האפליקציות האלה יתאפשר אם תקצו להן יותר קיבולת GPU.
DCGM_FI_DEV_FB_FREE, DCGM_FI_DEV_FB_USED, DCGM_FI_DEV_FB_TOTAL
המדדים האלה מתייחסים לזיכרון של מאגר הפריימים, שהוא הזיכרון ב-GPU. בדוח המדדים מופיעים הנתונים 'זיכרון פנוי' ו'זיכרון בשימוש', שסכומם הוא סך הזיכרון. וגם, הזיכרון הכולל שזמין.
שימוש צפוי: קובעים את דפוסי השימוש בזיכרון ה-GPU. כך תוכלו להשוות בין השימוש בפועל בזיכרון ה-GPU לבין השימוש הצפוי, כדי לקבוע את יעילות הזיכרון של האפליקציה.
DCGM_FI_DEV_MEM_COPY_UTIL
המדד הזה מייצג את חלקיק הזמן במהלך תקופת הדגימה האחרונה שבה בוצעה קריאה או כתיבה של זיכרון גלובלי (מכשיר).
השימוש הצפוי: קביעת דפוסי העברת הנתונים אל זיכרון ה-GPU וממנו. ערכים גבוהים של המדד הזה, בשילוב עם ערכים נמוכים של מדדי ניצול המחשוב, עשויים להצביע על כך שהעברת הזיכרון היא צוואר הבקבוק באפליקציות הפועלות.
DCGM_FI_PROF_DRAM_ACTIVE
המדד הזה מייצג את היחס בין המחזורים שבהם ממשק הזיכרון של ה-GPU שולח או מקבל נתונים. המדד הזה כולל טעינות ואחסונים משרשורים שמופעלים ב-SM, וגם העתקות של זיכרון אל זיכרון ה-GPU וממנו. ערכים גבוהים יותר מציינים רמות גבוהות יותר של תנועת נתונים בזיכרון.
שימוש צפוי:
המדד הזה דומה למדד DCGM_FI_DEV_MEM_COPY_UTIL, אבל הוא עשוי להיות מדויק יותר.
ניצול קלט/פלט
המדדים הבאים מספקים תובנות לגבי השימוש בהעברת נתונים בין ה-GPU לבין המארח, או בין כמה מכשירי GPU. אחת הדרכים להשתמש במדדים האלה היא לזהות מתי אפליקציה מעמיסה יתר על הממשק. בגלל האופי של שידור כזה, כדאי לבדוק נתונים ברזולוציה גבוהה יותר (למשל, התפלגות) כדי לקבל תמונה מפורטת יותר של אופן הפעולה של הקישוריות.
DCGM_FI_PROF_NVLINK_RX_BYTES, DCGM_FI_PROF_NVLINK_TX_BYTES
המדדים האלה מייצגים את קצב העברת הנתונים (throughput) של NVLink בשליחה (tx) ובקבלה (rx) בבייטים.
שימוש צפוי: מעקב אחרי העומס על מחברי NVLink (בין שבבי GPU). אם הערכים של המדדים האלה קרובים לרוחב הפס הכולל הזמין של NVLink, והמדדים של ניצול המחשוב נמוכים, יכול להיות ש-NVLink הוא צוואר בקבוק באפליקציות הפועלות.
DCGM_FI_PROF_PCIE_RX_BYTES, DCGM_FI_PROF_PCIE_TX_BYTES
המדדים האלה מייצגים את קצב העברת הנתונים (throughput) של PCIe בשליחה (tx) ובקבלה (rx) בבייטים, כאשר tx הוא ה-GPU ששולח נתונים, ו-rx הוא ה-GPU שמקבל נתונים.
שימוש צפוי: מעקב אחרי העומס באפיק PCIe (בין המעבד ל-GPU). אם הערכים של המדדים האלה קרובים לרוחב הפס הכולל של אפיק ה-PCIe, והמדדים של ניצול המחשוב נמוכים, יכול להיות שאפיק ה-PCIe הוא צוואר בקבוק באפליקציות שפועלות.
ניצול הספק
המדדים הבאים מספקים תובנות לגבי ניצול ההספק של המעבד הגרפי, שלפעמים חיוניות לביצועים וליעילות של עומס העבודה.
DCGM_FI_DEV_GPU_TEMP
המדד הזה מייצג את הטמפרטורה הממוצעת בכל ליבות ה-GPU.
שימוש צפוי: מעקב אחרי מצבים שבהם ה-GPU מתקרב להתחממות יתר, בעיקר כדי לבצע קורלציה עם ויסות מהירות השעון. אפשר גם להשתמש במדד הזה כדי לזהות מעבדי GPU שנוטים להתחמם יתר על המידה, כדי להפחית את העומס עליהם באפליקציות מתקדמות יותר.
DCGM_FI_DEV_POWER_USAGE
המדד הזה מייצג את צריכת החשמל של ה-GPU בוואט. יכול להיות שתרצו לעקוב אחרי צריכת החשמל כמדד של עומס על ה-GPU. מעבדי GPU של NVIDIA משנים את שעוני המנוע בהתאם לכמות העבודה שהם מבצעים. ככל שמהירות השעון (ולכן גם מידת הניצול) עולה, כך גם צריכת החשמל.
שימוש צפוי: מעקב אחרי כמות החשמל שה-GPU צורך עבור אפליקציות משתמשים.
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
המדד הזה מייצג את צריכת האנרגיה הכוללת של ה-GPU במיליג'ול (mJ) אחרי הטעינה האחרונה של מנהל ההתקן. השיעור שמחושב על סמך המדד הזה צריך להתאים למדד צריכת החשמל.
שימוש צפוי: מעקב אחרי כמות החשמל שה-GPU צורך עבור אפליקציות משתמשים.
מדדי ביצועים של GPU
ביצועי ה-GPU מתייחסים ליעילות שבה ה-GPU יכול לבצע משימה חישובית.
DCGM_FI_DEV_MEMORY_TEMP
המדד הזה מציין את הטמפרטורה הממוצעת של בלוק הזיכרון.
שימוש צפוי: כדי להציג את הטמפרטורה של בלוק הזיכרון ולבצע קורלציה עם טמפרטורת ה-GPU.
DCGM_FI_DEV_SM_CLOCK
המדד הזה מייצג את מהירות השעון הממוצעת בכל מעבדי ה-SM. המדד הזה מחושב במרווח זמן שצוין.
שימוש צפוי: מעקב אחרי מהירות השעון כדי לזהות הגבלת רוחב פס וליצור קורלציה עם ביצועי האפליקציה.