איסוף מדדים של DCGM וצפייה בהם

אתם יכולים לעקוב אחרי השימוש ב-GPU, הביצועים והתקינות שלו על ידי הגדרת GKE לשליחת מדדים של NVIDIA Data Center GPU Manager (DCGM) אל Cloud Monitoring.

כשמפעילים את מדדי DCGM,‏ GKE מתקין את הכלי DCGM-Exporter, מתקין מנהלי התקנים של GPU שמנוהלים על ידי Google ופורס משאב ClusterPodMonitoring כדי לשלוח מדדים אל השירות המנוהל של Google Cloud ל-Prometheus. בגרסה 1.32.1-gke.1357000 ואילך, חבילת המדדים של DCGM מופעלת כברירת מחדל באשכולות חדשים של GKE שנוצרו. באשכולות שמופעלות בהם גרסאות קודמות, אפשר להפעיל את איסוף המדדים של DCGM באמצעות מסוף Google Cloud , ה-CLI של gcloud או Terraform.

אפשר גם להגדיר DCGM בניהול עצמי אם רוצים להתאים אישית את קבוצת המדדים של DCGM או אם יש לכם אשכול שלא עומד בדרישות למדדים של DCGM בניהול.

מה זה DCGM

‫NVIDIA Data Center GPU Manager (DCGM) היא ערכת כלים של NVIDIA שמאפשרת לכם לנהל ולנטר מעבדים גרפיים של NVIDIA. ‫DCGM חושף מבנים שונים של יכולת צפייה ומונים באמצעות מה שהוא מכנה fields. לכל שדה יש מזהה סמלי ומספר שדה. רשימה מלאה של מזהי השדות זמינה בקישור NVIDIA DCGM list of Field IDs.

אם מפעילים מדדי DCGM ב-GKE, המדדים הנתמכים זמינים אוטומטית ב-Cloud Monitoring. המדדים האלה מספקים תמונה מקיפה של ניצול ה-GPU, הביצועים והתקינות.

  • מדדי השימוש ב-GPU מציינים עד כמה ה-GPU שבמעקב עמוס, ואם הוא מנוצל בצורה יעילה לעיבוד משימות. הנתונים כוללים מדדים של עיבוד ליבה, זיכרון, קלט/פלט וצריכת חשמל.
  • מדדי הביצועים של GPU מתייחסים ליעילות ולאפקטיביות של GPU בביצוע משימה חישובית. המדדים האלה כוללים את מהירות השעון והטמפרטורה.
  • מדדי קלט/פלט של GPU כמו NVlink ו-PCIe מודדים את רוחב הפס של העברת הנתונים.

לפני שמתחילים

לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:

  • מפעילים את ממשק ה-API של Google Kubernetes Engine.
  • הפעלת Google Kubernetes Engine API
  • אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה gcloud components update כדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.

הדרישות למדדים של NVIDIA Data Center GPU Manager‏ (DCGM)

כדי לאסוף מדדים של NVIDIA Data Center GPU Manager‏ (DCGM), אשכול GKE צריך לעמוד בדרישות הבאות:

  • האשכולות צריכים להריץ את גרסת GKE‏ ‎1.30.1-gke.1204000 או גרסה מתקדמת יותר.
  • צריך להפעיל את האיסוף של מדדי המערכת
  • צריך להפעיל את האוסף המנוהל של השירות המנוהל של Google Cloud ל-Prometheus
  • מאגרי הצמתים צריכים להריץ מנהלי התקנים של GPU שמנוהלים על ידי GKE. המשמעות היא שצריך ליצור את מאגרי הצמתים באמצעות default או latest עבור --gpu-driver-version.
  • ב-GKE גרסה ‎1.32.0-gke.1764000 ואילך, נאספים מדדי פרופיל לכל סוגי ה-GPU שנתמכים ב-GKE. בגרסאות קודמות של GKE,‏ מדדי פרופילים נאספים רק עבור GPUs מסוג NVIDIA H100 80GB.

מגבלות

  • אם אתם מפעילים חבילת מדדים של NVIDIA Data Center GPU Manager ‏ (DCGM) שהופעלה באופן עצמאי, אתם צריכים להפסיק את האיסוף שלה לפני שתפעילו מדדים מנוהלים של NVIDIA Data Center GPU Manager ‏ (DCGM), אחרת יכול להיות שתקבלו מדדים כפולים או שגויים.

  • המדדים המנוהלים של DCGM, כולל המניפסטים הבסיסיים ותמונות הקונטיינרים, מיועדים לפעול רק באשכולות GKE. אל תשתמשו במדדים מנוהלים של DCGM באופן עצמאי, ואל תפעילו אותם מחוץ ל-GKE.

הגדרת איסוף של מדדים מ-DCGM

אפשר להפעיל את GKE כדי לאסוף מדדים של DCGM עבור אשכול קיים באמצעות מסוף Google Cloud , ה-CLI של gcloud או Terraform.

המסוף

  1. יצירת מאגר צמתים של GPU

    חובה להשתמש באפשרות Default או Latest עבור GPU Driver Installation.

  2. נכנסים לדף Google Kubernetes Engine במסוף Google Cloud .

    מעבר אל Google Kubernetes Engine

  3. לוחצים על שם האשכול.

  4. לצד Cloud Monitoring, לוחצים על .

  5. בוחרים באפשרות SYSTEM ואז באפשרות DCGM.

  6. לוחצים על 'שמירה'.

gcloud

  1. יוצרים מאגר צמתים של GPU.

    חובה להשתמש ב-default או ב-latest בשביל --gpu-driver-version.

  2. מעדכנים את האשכול:

    gcloud container clusters update CLUSTER_NAME \
        --location=COMPUTE_LOCATION \
        --enable-managed-prometheus \
        --monitoring=SYSTEM,DCGM
    

    מחליפים את מה שכתוב בשדות הבאים:

Terraform

כדי להגדיר את איסוף המדדים של DCGM באמצעות Terraform, אפשר לעיין בבלוק monitoring_config במאגר Terraform עבור google_container_cluster. מידע כללי על שימוש ב- Google Cloud עם Terraform זמין במאמר Terraform עם Google Cloud.

שימוש במדדים של DCGM

אפשר לראות את מדדי DCGM באמצעות לוחות הבקרה במסוףGoogle Cloud או ישירות בדפים 'סקירה כללית של האשכול' ו'פרטי האשכול'. מידע נוסף מופיע במאמר בנושא הצגת מדדי יכולת התבוננות.

אפשר לראות את המדדים באמצעות לוח הבקרה של מדדי Grafana DCGM. מידע נוסף מפורט במאמר בנושא שאילתות באמצעות Grafana. אם נתקלים בשגיאות, אפשר לעיין במאמר בנושא תאימות ל-API.

תמחור

מדדי DCGM משתמשים ב-השירות המנוהל של Google Cloud ל-Prometheus כדי לטעון מדדים ל-Cloud Monitoring. החיובים על הטמעת המדדים האלה ב-Cloud Monitoring מבוססים על מספר הדגימות שהוטמעו.

מידע נוסף זמין במאמר בנושא תמחור של Cloud Monitoring.

מכסה

מדדי DCGM צורכים את המכסה Time series ingestion requests per minute של Cloud Monitoring API. לפני שמפעילים את חבילות המדדים, כדאי לבדוק את השימוש המקסימלי האחרון במכסה הזו. אם יש לכם הרבה אשכולות באותו פרויקט או שאתם כבר מתקרבים למגבלת המכסה הזו, אתם יכולים לבקש להגדיל את מכסת הפרויקט לפני הפעלת אחד מחבילות הניטור.

מדדי DCGM

שמות המדדים של Cloud Monitoring בטבלה הזו חייבים להתחיל בקידומת prometheus.googleapis.com/. התחילית הזו הושמטה מהערכים בטבלה.

בנוסף לתוויות במשאב שבמעקב prometheus_target, כל מדדי DCGM שנאספים ב-GKE כוללים את התוויות הבאות:

תוויות של יחידות GPU:

  • UUID: המזהה הייחודי האוניברסלי (UUID) של מכשיר ה-GPU
  • device: שם מכשיר ה-GPU.
  • gpu: מספר האינדקס כמספר שלם של מכשיר ה-GPU בצומת. לדוגמה, אם מחוברים 8 כרטיסי GPU, הערך הזה יכול להיות בין 0 ל-7.
  • modelName: השם של דגם מכשיר ה-GPU, למשל NVIDIA L4.

תוויות Kubernetes:‏

  • container: השם של קונטיינר Kubernetes שמשתמש במכשיר ה-GPU.
  • namespace: מרחב השמות של Kubernetes של ה-Pod והקונטיינר שמשתמשים במכשיר ה-GPU.
  • pod: ה-Pod של Kubernetes שמשתמש במכשיר ה-GPU.
שם המדד ב-PromQL
שם המדד ב-Cloud Monitoring
‫Kind, Type, Unit
Monitored resources
Required GKE version
תיאור
DCGM_FI_DEV_FB_FREE
DCGM_FI_DEV_FB_FREE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
האחסון הזמני של מסגרת ב-MB.
DCGM_FI_DEV_FB_TOTAL
DCGM_FI_DEV_FB_TOTAL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
סך מאגר הפריים של ה-GPU ב-MB.
DCGM_FI_DEV_FB_USED
DCGM_FI_DEV_FB_USED/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
השימוש באחסון הזמני של מסגרת ב-MB.
DCGM_FI_DEV_GPU_TEMP
DCGM_FI_DEV_GPU_TEMP/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
קריאות הטמפרטורה הנוכחיות של המכשיר (במעלות צלזיוס).
DCGM_FI_DEV_GPU_UTIL
DCGM_FI_DEV_GPU_UTIL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
ניצול ה-GPU (ב-%).
DCGM_FI_DEV_MEM_COPY_UTIL
DCGM_FI_DEV_MEM_COPY_UTIL/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
ניצול הזיכרון (באחוזים).
DCGM_FI_DEV_MEMORY_TEMP
DCGM_FI_DEV_MEMORY_TEMP/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
טמפרטורת הזיכרון של המכשיר (במעלות צלזיוס).
DCGM_FI_DEV_POWER_USAGE
DCGM_FI_DEV_POWER_USAGE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
צריכת החשמל של המכשיר (בוואט).
DCGM_FI_DEV_SM_CLOCK
DCGM_FI_DEV_SM_CLOCK/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
תדר השעון של SM (במגה-הרץ).
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter

CUMULATIVEDOUBLE1 prometheus_target
1.30.1-gke.1204000
צריכת האנרגיה הכוללת של ה-GPU במילי-ג'ול מאז הטעינה האחרונה של מנהל ההתקן.
DCGM_FI_PROF_DRAM_ACTIVE
DCGM_FI_PROF_DRAM_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין המחזורים שבהם ממשק הזיכרון של המכשיר פעיל בשליחה או בקבלה של נתונים.
DCGM_FI_PROF_GR_ENGINE_ACTIVE
DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין הזמן שבו מנוע הגרפיקה פעיל.
DCGM_FI_PROF_NVLINK_RX_BYTES
DCGM_FI_PROF_NVLINK_RX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
קצב הנתונים הפעילים של NvLink rx (קריאה) בבייט, כולל כותרת ומטען ייעודי.
DCGM_FI_PROF_NVLINK_TX_BYTES
DCGM_FI_PROF_NVLINK_TX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
קצב הנתונים הפעילים של NvLink tx (שידור) בבייט, כולל כותרת ומטען ייעודי.
DCGM_FI_PROF_PCIE_RX_BYTES
DCGM_FI_PROF_PCIE_RX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
שיעור הנתונים הפעילים של PCIe rx (קריאה) בבייטים, כולל כותרת ומטען ייעודי.
DCGM_FI_PROF_PCIE_TX_BYTES
DCGM_FI_PROF_PCIE_TX_BYTES/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
שיעור הנתונים הפעילים של PCIe tx (שידור) בבייט, כולל כותרת ומטען ייעודי.
DCGM_FI_PROF_PIPE_FP16_ACTIVE
DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין המחזורים שבהם צינור ה-fp16 פעיל.
DCGM_FI_PROF_PIPE_FP32_ACTIVE
DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין המחזורים שבהם צינור ה-fp32 פעיל.
DCGM_FI_PROF_PIPE_FP64_ACTIVE
DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין המחזורים שבהם צינור fp64 פעיל.
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין המחזורים שבהם צינור טנסור כלשהו פעיל.
DCGM_FI_PROF_SM_ACTIVE
DCGM_FI_PROF_SM_ACTIVE/gauge

GAUGEDOUBLE1 prometheus_target
1.30.1-gke.1204000
היחס בין מחזורים של SM שלפחות עיוות אחד הוקצה להם.

כדי לעזור לכם להבין איך אפשר להשתמש במדדים האלה, קיבצנו אותם באופן הבא:

ניצול של Compute או Core

המדדים האלה מאפשרים לכם לזהות מכשירים שלא מנוצלים מספיק, ולשנות את החישוב או את הקצאת ה-GPU כדי לבצע אופטימיזציה של הניצול. ניצול נמוך של ה-GPU מצביע על כך שאולי אתם משלמים על קיבולת GPU גדולה יותר ממה שאתם צריכים. המדדים האלה יכולים לעזור לכם לחסוך בעלויות על ידי איחוד החישובים בפחות מכשירים.

DCGM_FI_DEV_GPU_UTIL

המדד הזה מייצג את חלקיק הזמן שבו ה-GPU היה פעיל.

השימוש הצפוי: סקירה כללית של השימוש הממוצע ב-GPU. המדד הזה דומה ל-DCGM_FI_PROF_GR_ENGINE_ACTIVE, שיכול להיות מדד מדויק יותר לניצול ה-GPU.

DCGM_FI_PROF_GR_ENGINE_ACTIVE

המדד הזה מייצג את רמת העומס של מנוע הגרפיקה בכל מרווח דגימה. הערך נגזר מהמספר הממוצע של מחזורים פעילים לעומת המספר המקסימלי האפשרי של מחזורים זמינים במרווח הדגימה. לדוגמה, אם במהלך מרווח דגימה של שנייה אחת היו זמינים 1,000 מחזורים, ובפועל היו פעילים בממוצע 324 מחזורים (ביצעו עבודה), ערך המדד שיתקבל יהיה 0.324. אפשר לפרש את זה בערך כך: (‎0.324 x 100)‎ 32.4%‎ שימוש.

השימוש הצפוי: סקירה כללית של השימוש הממוצע ב-GPU. ערכים גבוהים באופן עקבי של ניצול המשאבים מצביעים על כך שה-GPU עלול להוות צוואר בקבוק שגורם לבעיות בביצועי המערכת. ערכים נמוכים באופן עקבי של ניצול מצביעים על כך שהאפליקציה לא משתמשת במלוא כוח העיבוד הזמין.

DCGM_FI_PROF_PIPE_FP16_ACTIVE, DCGM_FI_PROF_PIPE_FP32_ACTIVE, DCGM_FI_PROF_PIPE_FP64_ACTIVE, DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

המדדים האלה מייצגים את היחס בין מחזורי הפעילות של צינור GPU נתון לבין מחזורי הזמן שעברו בשיא הפעילות.

השימוש הצפוי: מדד שמשקף את מידת היעילות של השימוש בצינורות החישוב השונים ב-GPU.

DCGM_FI_PROF_SM_ACTIVE

המדד הזה מייצג את חלקיק הזמן שבו לפחות עיוות אחד היה פעיל בבלוק SM ‏(Streaming Multiprocessor), בממוצע בכל ה-SM. לדוגמה, אם ל-GPU יש 80 יחידות SM זמינות, ובמהלך תקופת הדגימה 16 יחידות SM ביצעו עיוות, הערך sm_active שיתקבל יהיה (16/80) 0.20, שאפשר לפרש אותו כ-20% מהיחידות הזמינות של SM ביצעו עיוות.

השימוש הצפוי: מדד למידת המידה שבה נעשה שימוש במקביליות של ה-GPU.

ניצול הזיכרון

השימוש העיקרי במדדים האלה הוא לזיהוי מצבים שבהם למכשירי GPU אין מספיק זיכרון לאפליקציות. יכול להיות ששיפור הביצועים של האפליקציות האלה יתאפשר אם תקצו להן יותר קיבולת GPU.

DCGM_FI_DEV_FB_FREE, DCGM_FI_DEV_FB_USED, DCGM_FI_DEV_FB_TOTAL

המדדים האלה מתייחסים לזיכרון של מאגר הפריימים, שהוא הזיכרון ב-GPU. בדוח המדדים מופיעים הנתונים 'זיכרון פנוי' ו'זיכרון בשימוש', שסכומם הוא סך הזיכרון. וגם, הזיכרון הכולל שזמין.

שימוש צפוי: קובעים את דפוסי השימוש בזיכרון ה-GPU. כך תוכלו להשוות בין השימוש בפועל בזיכרון ה-GPU לבין השימוש הצפוי, כדי לקבוע את יעילות הזיכרון של האפליקציה.

DCGM_FI_DEV_MEM_COPY_UTIL

המדד הזה מייצג את חלקיק הזמן במהלך תקופת הדגימה האחרונה שבה בוצעה קריאה או כתיבה של זיכרון גלובלי (מכשיר).

השימוש הצפוי: קביעת דפוסי העברת הנתונים אל זיכרון ה-GPU וממנו. ערכים גבוהים של המדד הזה, בשילוב עם ערכים נמוכים של מדדי ניצול המחשוב, עשויים להצביע על כך שהעברת הזיכרון היא צוואר הבקבוק באפליקציות הפועלות.

DCGM_FI_PROF_DRAM_ACTIVE

המדד הזה מייצג את היחס בין המחזורים שבהם ממשק הזיכרון של ה-GPU שולח או מקבל נתונים. המדד הזה כולל טעינות ואחסונים משרשורים שמופעלים ב-SM, וגם העתקות של זיכרון אל זיכרון ה-GPU וממנו. ערכים גבוהים יותר מציינים רמות גבוהות יותר של תנועת נתונים בזיכרון.

שימוש צפוי: המדד הזה דומה למדד DCGM_FI_DEV_MEM_COPY_UTIL, אבל הוא עשוי להיות מדויק יותר.

ניצול קלט/פלט

המדדים הבאים מספקים תובנות לגבי השימוש בהעברת נתונים בין ה-GPU לבין המארח, או בין כמה מכשירי GPU. אחת הדרכים להשתמש במדדים האלה היא לזהות מתי אפליקציה מעמיסה יתר על הממשק. בגלל האופי של שידור כזה, כדאי לבדוק נתונים ברזולוציה גבוהה יותר (למשל, התפלגות) כדי לקבל תמונה מפורטת יותר של אופן הפעולה של הקישוריות.

DCGM_FI_PROF_NVLINK_RX_BYTES, DCGM_FI_PROF_NVLINK_TX_BYTES

המדדים האלה מייצגים את קצב העברת הנתונים (throughput) של NVLink בשליחה (tx) ובקבלה (rx) בבייטים.

שימוש צפוי: מעקב אחרי העומס על מחברי NVLink (בין שבבי GPU). אם הערכים של המדדים האלה קרובים לרוחב הפס הכולל הזמין של NVLink, והמדדים של ניצול המחשוב נמוכים, יכול להיות ש-NVLink הוא צוואר בקבוק באפליקציות הפועלות.

DCGM_FI_PROF_PCIE_RX_BYTES, DCGM_FI_PROF_PCIE_TX_BYTES

המדדים האלה מייצגים את קצב העברת הנתונים (throughput) של PCIe בשליחה (tx) ובקבלה (rx) בבייטים, כאשר tx הוא ה-GPU ששולח נתונים, ו-rx הוא ה-GPU שמקבל נתונים.

שימוש צפוי: מעקב אחרי העומס באפיק PCIe (בין המעבד ל-GPU). אם הערכים של המדדים האלה קרובים לרוחב הפס הכולל של אפיק ה-PCIe, והמדדים של ניצול המחשוב נמוכים, יכול להיות שאפיק ה-PCIe הוא צוואר בקבוק באפליקציות שפועלות.

ניצול הספק

המדדים הבאים מספקים תובנות לגבי ניצול ההספק של המעבד הגרפי, שלפעמים חיוניות לביצועים וליעילות של עומס העבודה.

DCGM_FI_DEV_GPU_TEMP

המדד הזה מייצג את הטמפרטורה הממוצעת בכל ליבות ה-GPU.

שימוש צפוי: מעקב אחרי מצבים שבהם ה-GPU מתקרב להתחממות יתר, בעיקר כדי לבצע קורלציה עם ויסות מהירות השעון. אפשר גם להשתמש במדד הזה כדי לזהות מעבדי GPU שנוטים להתחמם יתר על המידה, כדי להפחית את העומס עליהם באפליקציות מתקדמות יותר.

DCGM_FI_DEV_POWER_USAGE

המדד הזה מייצג את צריכת החשמל של ה-GPU בוואט. יכול להיות שתרצו לעקוב אחרי צריכת החשמל כמדד של עומס על ה-GPU. מעבדי GPU של NVIDIA משנים את שעוני המנוע בהתאם לכמות העבודה שהם מבצעים. ככל שמהירות השעון (ולכן גם מידת הניצול) עולה, כך גם צריכת החשמל.

שימוש צפוי: מעקב אחרי כמות החשמל שה-GPU צורך עבור אפליקציות משתמשים.

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

המדד הזה מייצג את צריכת האנרגיה הכוללת של ה-GPU במיליג'ול (mJ) אחרי הטעינה האחרונה של מנהל ההתקן. השיעור שמחושב על סמך המדד הזה צריך להתאים למדד צריכת החשמל.

שימוש צפוי: מעקב אחרי כמות החשמל שה-GPU צורך עבור אפליקציות משתמשים.

מדדי ביצועים של GPU

ביצועי ה-GPU מתייחסים ליעילות שבה ה-GPU יכול לבצע משימה חישובית.

DCGM_FI_DEV_MEMORY_TEMP

המדד הזה מציין את הטמפרטורה הממוצעת של בלוק הזיכרון.

שימוש צפוי: כדי להציג את הטמפרטורה של בלוק הזיכרון ולבצע קורלציה עם טמפרטורת ה-GPU.

DCGM_FI_DEV_SM_CLOCK

המדד הזה מייצג את מהירות השעון הממוצעת בכל מעבדי ה-SM. המדד הזה מחושב במרווח זמן שצוין.

שימוש צפוי: מעקב אחרי מהירות השעון כדי לזהות הגבלת רוחב פס וליצור קורלציה עם ביצועי האפליקציה.

המאמרים הבאים