Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

איסוף מדדים של DCGM וצפייה בהם

טייס אוטומטי רגילה

אתם יכולים לעקוב אחרי השימוש ב-GPU, הביצועים והתקינות שלו על ידי הגדרת GKE לשליחת מדדים של NVIDIA Data Center GPU Manager (DCGM) אל Cloud Monitoring.

כשמפעילים את מדדי DCGM,‏ GKE מתקין את הכלי DCGM-Exporter, מתקין מנהלי התקנים של GPU שמנוהלים על ידי Google ופורס משאב ClusterPodMonitoring כדי לשלוח מדדים אל השירות המנוהל של Google Cloud ל-Prometheus. בגרסה 1.32.1-gke.1357000 ואילך, חבילת המדדים של DCGM מופעלת כברירת מחדל באשכולות חדשים של GKE שנוצרו. באשכולות שמופעלות בהם גרסאות קודמות, אפשר להפעיל את איסוף המדדים של DCGM באמצעות מסוף Google Cloud , ה-CLI של gcloud או Terraform.

אפשר גם להגדיר DCGM בניהול עצמי אם רוצים להתאים אישית את קבוצת המדדים של DCGM או אם יש לכם אשכול שלא עומד בדרישות למדדים של DCGM בניהול.

מה זה DCGM

‫NVIDIA Data Center GPU Manager (DCGM) היא ערכת כלים של NVIDIA שמאפשרת לכם לנהל ולנטר מעבדים גרפיים של NVIDIA. ‫DCGM חושף מבנים שונים של יכולת צפייה ומונים באמצעות מה שהוא מכנה fields. לכל שדה יש מזהה סמלי ומספר שדה. רשימה מלאה של מזהי השדות זמינה בקישור NVIDIA DCGM list of Field IDs.

אם מפעילים מדדי DCGM ב-GKE, המדדים הנתמכים זמינים אוטומטית ב-Cloud Monitoring. המדדים האלה מספקים תמונה מקיפה של ניצול ה-GPU, הביצועים והתקינות.

מדדי השימוש ב-GPU מציינים עד כמה ה-GPU שבמעקב עמוס, ואם הוא מנוצל בצורה יעילה לעיבוד משימות. הנתונים כוללים מדדים של עיבוד ליבה, זיכרון, קלט/פלט וצריכת חשמל.
מדדי הביצועים של GPU מתייחסים ליעילות ולאפקטיביות של GPU בביצוע משימה חישובית. המדדים האלה כוללים את מהירות השעון והטמפרטורה.
מדדי קלט/פלט של GPU כמו NVlink ו-PCIe מודדים את רוחב הפס של העברת הנתונים.

לפני שמתחילים

לפני שמתחילים, חשוב לוודא שביצעתם את הפעולות הבאות:

מפעילים את ממשק ה-API של Google Kubernetes Engine.

הפעלת Google Kubernetes Engine API

אם רוצים להשתמש ב-CLI של Google Cloud למשימה הזו, צריך להתקין ואז להפעיל את ה-CLI של gcloud. אם התקנתם בעבר את ה-CLI של gcloud, מריצים את הפקודה gcloud components update כדי לקבל את הגרסה העדכנית. יכול להיות שגרסאות קודמות של ה-CLI של gcloud לא יתמכו בהרצת הפקודות שמופיעות במסמך הזה.
הערה: אם כבר התקנתם את ה-CLI של gcloud, הקפידו להגדיר את compute/region המאפיין. אם אתם משתמשים בעיקר באשכולות אזוריים, הגדירו במקום זאת את compute/zone. אם מגדירים מיקום ברירת מחדל, אפשר להימנע משגיאות ב-CLI של gcloud כמו השגיאה הבאה: One of [--zone, --region] must be supplied: Please specify location. יכול להיות שתצטרכו לציין את המיקום בפקודות מסוימות אם המיקום של האשכול שונה מברירת המחדל שהגדרתם.

הדרישות למדדים של NVIDIA Data Center GPU Manager‏ (DCGM)

כדי לאסוף מדדים של NVIDIA Data Center GPU Manager‏ (DCGM), אשכול GKE צריך לעמוד בדרישות הבאות:

האשכולות צריכים להריץ את גרסת GKE‏ ‎1.30.1-gke.1204000 או גרסה מתקדמת יותר.
צריך להפעיל את האיסוף של מדדי המערכת
צריך להפעיל את האוסף המנוהל של השירות המנוהל של Google Cloud ל-Prometheus
מאגרי הצמתים צריכים להריץ מנהלי התקנים של GPU שמנוהלים על ידי GKE. המשמעות היא שצריך ליצור את מאגרי הצמתים באמצעות default או latest עבור --gpu-driver-version.
ב-GKE גרסה ‎1.32.0-gke.1764000 ואילך, נאספים מדדי פרופיל לכל סוגי ה-GPU שנתמכים ב-GKE. בגרסאות קודמות של GKE,‏ מדדי פרופילים נאספים רק עבור GPUs מסוג NVIDIA H100 80GB.

מגבלות

אם אתם מפעילים חבילת מדדים של NVIDIA Data Center GPU Manager ‏ (DCGM) שהופעלה באופן עצמאי, אתם צריכים להפסיק את האיסוף שלה לפני שתפעילו מדדים מנוהלים של NVIDIA Data Center GPU Manager ‏ (DCGM), אחרת יכול להיות שתקבלו מדדים כפולים או שגויים.
המדדים המנוהלים של DCGM, כולל המניפסטים הבסיסיים ותמונות הקונטיינרים, מיועדים לפעול רק באשכולות GKE. אל תשתמשו במדדים מנוהלים של DCGM באופן עצמאי, ואל תפעילו אותם מחוץ ל-GKE.

הגדרת איסוף של מדדים מ-DCGM

אפשר להפעיל את GKE כדי לאסוף מדדים של DCGM עבור אשכול קיים באמצעות מסוף Google Cloud , ה-CLI של gcloud או Terraform.

המסוף

יצירת מאגר צמתים של GPU

חובה להשתמש באפשרות Default או Latest עבור GPU Driver Installation.
נכנסים לדף Google Kubernetes Engine במסוף Google Cloud .

מעבר אל Google Kubernetes Engine
לוחצים על שם האשכול.
לצד Cloud Monitoring, לוחצים על .
בוחרים באפשרות SYSTEM ואז באפשרות DCGM.
לוחצים על 'שמירה'.

gcloud

יוצרים מאגר צמתים של GPU.

חובה להשתמש ב-default או ב-latest בשביל --gpu-driver-version.
מעדכנים את האשכול:
```
gcloud container clusters update CLUSTER_NAME \
    --location=COMPUTE_LOCATION \
    --enable-managed-prometheus \
    --monitoring=SYSTEM,DCGM
```
מחליפים את מה שכתוב בשדות הבאים:
- ‫CLUSTER_NAME: השם של האשכול הקיים.
- ‫COMPUTE_LOCATION: המיקום של Compute Engine של האשכול.

Terraform

כדי להגדיר את איסוף המדדים של DCGM באמצעות Terraform, אפשר לעיין בבלוק monitoring_config במאגר Terraform עבור google_container_cluster. מידע כללי על שימוש ב- Google Cloud עם Terraform זמין במאמר Terraform עם Google Cloud.

שימוש במדדים של DCGM

אפשר לראות את מדדי DCGM באמצעות לוחות הבקרה במסוףGoogle Cloud או ישירות בדפים 'סקירה כללית של האשכול' ו'פרטי האשכול'. מידע נוסף מופיע במאמר בנושא הצגת מדדי יכולת התבוננות.

אפשר לראות את המדדים באמצעות לוח הבקרה של מדדי Grafana DCGM. מידע נוסף מפורט במאמר בנושא שאילתות באמצעות Grafana. אם נתקלים בשגיאות, אפשר לעיין במאמר בנושא תאימות ל-API.

תמחור

מדדי DCGM משתמשים ב-השירות המנוהל של Google Cloud ל-Prometheus כדי לטעון מדדים ל-Cloud Monitoring. החיובים על הטמעת המדדים האלה ב-Cloud Monitoring מבוססים על מספר הדגימות שהוטמעו.

מידע נוסף זמין במאמר בנושא תמחור של Cloud Monitoring.

מכסה

מדדי DCGM צורכים את המכסה Time series ingestion requests per minute של Cloud Monitoring API. לפני שמפעילים את חבילות המדדים, כדאי לבדוק את השימוש המקסימלי האחרון במכסה הזו. אם יש לכם הרבה אשכולות באותו פרויקט או שאתם כבר מתקרבים למגבלת המכסה הזו, אתם יכולים לבקש להגדיל את מכסת הפרויקט לפני הפעלת אחד מחבילות הניטור.

מדדי DCGM

שמות המדדים של Cloud Monitoring בטבלה הזו חייבים להתחיל בקידומת prometheus.googleapis.com/. התחילית הזו הושמטה מהערכים בטבלה.

בנוסף לתוויות במשאב שבמעקב prometheus_target, כל מדדי DCGM שנאספים ב-GKE כוללים את התוויות הבאות:

תוויות של יחידות GPU:

‫UUID: המזהה הייחודי האוניברסלי (UUID) של מכשיר ה-GPU
‫device: שם מכשיר ה-GPU.
‫gpu: מספר האינדקס כמספר שלם של מכשיר ה-GPU בצומת. לדוגמה, אם מחוברים 8 כרטיסי GPU, הערך הזה יכול להיות בין 0 ל-7.
‫modelName: השם של דגם מכשיר ה-GPU, למשל NVIDIA L4.

תוויות Kubernetes:‏

‫container: השם של קונטיינר Kubernetes שמשתמש במכשיר ה-GPU.
‫namespace: מרחב השמות של Kubernetes של ה-Pod והקונטיינר שמשתמשים במכשיר ה-GPU.
‫pod: ה-Pod של Kubernetes שמשתמש במכשיר ה-GPU.

שם המדד ב-PromQL שם המדד ב-Cloud Monitoring
‫Kind, Type, Unit Monitored resources Required GKE version	תיאור
`DCGM_FI_DEV_FB_FREE` `DCGM_FI_DEV_FB_FREE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	האחסון הזמני של מסגרת ב-MB.
`DCGM_FI_DEV_FB_TOTAL` `DCGM_FI_DEV_FB_TOTAL/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	סך מאגר הפריים של ה-GPU ב-MB.
`DCGM_FI_DEV_FB_USED` `DCGM_FI_DEV_FB_USED/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	השימוש באחסון הזמני של מסגרת ב-MB.
`DCGM_FI_DEV_GPU_TEMP` `DCGM_FI_DEV_GPU_TEMP/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	קריאות הטמפרטורה הנוכחיות של המכשיר (במעלות צלזיוס).
`DCGM_FI_DEV_GPU_UTIL` `DCGM_FI_DEV_GPU_UTIL/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	ניצול ה-GPU (ב-%).
`DCGM_FI_DEV_MEM_COPY_UTIL` `DCGM_FI_DEV_MEM_COPY_UTIL/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	ניצול הזיכרון (באחוזים).
`DCGM_FI_DEV_MEMORY_TEMP` `DCGM_FI_DEV_MEMORY_TEMP/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	טמפרטורת הזיכרון של המכשיר (במעלות צלזיוס).
`DCGM_FI_DEV_POWER_USAGE` `DCGM_FI_DEV_POWER_USAGE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	צריכת החשמל של המכשיר (בוואט).
`DCGM_FI_DEV_SM_CLOCK` `DCGM_FI_DEV_SM_CLOCK/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	תדר השעון של SM (במגה-הרץ).
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION` `DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION/counter`
`CUMULATIVE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	צריכת האנרגיה הכוללת של ה-GPU במילי-ג'ול מאז הטעינה האחרונה של מנהל ההתקן.
`DCGM_FI_PROF_DRAM_ACTIVE` `DCGM_FI_PROF_DRAM_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין המחזורים שבהם ממשק הזיכרון של המכשיר פעיל בשליחה או בקבלה של נתונים.
`DCGM_FI_PROF_GR_ENGINE_ACTIVE` `DCGM_FI_PROF_GR_ENGINE_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין הזמן שבו מנוע הגרפיקה פעיל.
`DCGM_FI_PROF_NVLINK_RX_BYTES` `DCGM_FI_PROF_NVLINK_RX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	קצב הנתונים הפעילים של NvLink rx (קריאה) בבייט, כולל כותרת ומטען ייעודי.
`DCGM_FI_PROF_NVLINK_TX_BYTES` `DCGM_FI_PROF_NVLINK_TX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	קצב הנתונים הפעילים של NvLink tx (שידור) בבייט, כולל כותרת ומטען ייעודי.
`DCGM_FI_PROF_PCIE_RX_BYTES` `DCGM_FI_PROF_PCIE_RX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	שיעור הנתונים הפעילים של PCIe rx (קריאה) בבייטים, כולל כותרת ומטען ייעודי.
`DCGM_FI_PROF_PCIE_TX_BYTES` `DCGM_FI_PROF_PCIE_TX_BYTES/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	שיעור הנתונים הפעילים של PCIe tx (שידור) בבייט, כולל כותרת ומטען ייעודי.
`DCGM_FI_PROF_PIPE_FP16_ACTIVE` `DCGM_FI_PROF_PIPE_FP16_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין המחזורים שבהם צינור ה-fp16 פעיל.
`DCGM_FI_PROF_PIPE_FP32_ACTIVE` `DCGM_FI_PROF_PIPE_FP32_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין המחזורים שבהם צינור ה-fp32 פעיל.
`DCGM_FI_PROF_PIPE_FP64_ACTIVE` `DCGM_FI_PROF_PIPE_FP64_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין המחזורים שבהם צינור fp64 פעיל.
`DCGM_FI_PROF_PIPE_TENSOR_ACTIVE` `DCGM_FI_PROF_PIPE_TENSOR_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין המחזורים שבהם צינור טנסור כלשהו פעיל.
`DCGM_FI_PROF_SM_ACTIVE` `DCGM_FI_PROF_SM_ACTIVE/gauge`
`GAUGE`, `DOUBLE`, `1` prometheus_target 1.30.1-gke.1204000	היחס בין מחזורים של SM שלפחות עיוות אחד הוקצה להם.

כדי לעזור לכם להבין איך אפשר להשתמש במדדים האלה, קיבצנו אותם באופן הבא:

ניצול של Compute או Core

המדדים האלה מאפשרים לכם לזהות מכשירים שלא מנוצלים מספיק, ולשנות את החישוב או את הקצאת ה-GPU כדי לבצע אופטימיזציה של הניצול. ניצול נמוך של ה-GPU מצביע על כך שאולי אתם משלמים על קיבולת GPU גדולה יותר ממה שאתם צריכים. המדדים האלה יכולים לעזור לכם לחסוך בעלויות על ידי איחוד החישובים בפחות מכשירים.

DCGM_FI_DEV_GPU_UTIL

המדד הזה מייצג את חלקיק הזמן שבו ה-GPU היה פעיל.

השימוש הצפוי: סקירה כללית של השימוש הממוצע ב-GPU. המדד הזה דומה ל-DCGM_FI_PROF_GR_ENGINE_ACTIVE, שיכול להיות מדד מדויק יותר לניצול ה-GPU.

DCGM_FI_PROF_GR_ENGINE_ACTIVE

המדד הזה מייצג את רמת העומס של מנוע הגרפיקה בכל מרווח דגימה. הערך נגזר מהמספר הממוצע של מחזורים פעילים לעומת המספר המקסימלי האפשרי של מחזורים זמינים במרווח הדגימה. לדוגמה, אם במהלך מרווח דגימה של שנייה אחת היו זמינים 1,000 מחזורים, ובפועל היו פעילים בממוצע 324 מחזורים (ביצעו עבודה), ערך המדד שיתקבל יהיה 0.324. אפשר לפרש את זה בערך כך: (‎0.324 x 100)‎ 32.4%‎ שימוש.

השימוש הצפוי: סקירה כללית של השימוש הממוצע ב-GPU. ערכים גבוהים באופן עקבי של ניצול המשאבים מצביעים על כך שה-GPU עלול להוות צוואר בקבוק שגורם לבעיות בביצועי המערכת. ערכים נמוכים באופן עקבי של ניצול מצביעים על כך שהאפליקציה לא משתמשת במלוא כוח העיבוד הזמין.

DCGM_FI_PROF_PIPE_FP16_ACTIVE, DCGM_FI_PROF_PIPE_FP32_ACTIVE, DCGM_FI_PROF_PIPE_FP64_ACTIVE, DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

המדדים האלה מייצגים את היחס בין מחזורי הפעילות של צינור GPU נתון לבין מחזורי הזמן שעברו בשיא הפעילות.

השימוש הצפוי: מדד שמשקף את מידת היעילות של השימוש בצינורות החישוב השונים ב-GPU.

DCGM_FI_PROF_SM_ACTIVE

המדד הזה מייצג את חלקיק הזמן שבו לפחות עיוות אחד היה פעיל בבלוק SM ‏(Streaming Multiprocessor), בממוצע בכל ה-SM. לדוגמה, אם ל-GPU יש 80 יחידות SM זמינות, ובמהלך תקופת הדגימה 16 יחידות SM ביצעו עיוות, הערך sm_active שיתקבל יהיה (16/80) 0.20, שאפשר לפרש אותו כ-20% מהיחידות הזמינות של SM ביצעו עיוות.

השימוש הצפוי: מדד למידת המידה שבה נעשה שימוש במקביליות של ה-GPU.

ניצול הזיכרון

השימוש העיקרי במדדים האלה הוא לזיהוי מצבים שבהם למכשירי GPU אין מספיק זיכרון לאפליקציות. יכול להיות ששיפור הביצועים של האפליקציות האלה יתאפשר אם תקצו להן יותר קיבולת GPU.

DCGM_FI_DEV_FB_FREE, DCGM_FI_DEV_FB_USED, DCGM_FI_DEV_FB_TOTAL

המדדים האלה מתייחסים לזיכרון של מאגר הפריימים, שהוא הזיכרון ב-GPU. בדוח המדדים מופיעים הנתונים 'זיכרון פנוי' ו'זיכרון בשימוש', שסכומם הוא סך הזיכרון. וגם, הזיכרון הכולל שזמין.

שימוש צפוי: קובעים את דפוסי השימוש בזיכרון ה-GPU. כך תוכלו להשוות בין השימוש בפועל בזיכרון ה-GPU לבין השימוש הצפוי, כדי לקבוע את יעילות הזיכרון של האפליקציה.

DCGM_FI_DEV_MEM_COPY_UTIL

המדד הזה מייצג את חלקיק הזמן במהלך תקופת הדגימה האחרונה שבה בוצעה קריאה או כתיבה של זיכרון גלובלי (מכשיר).

השימוש הצפוי: קביעת דפוסי העברת הנתונים אל זיכרון ה-GPU וממנו. ערכים גבוהים של המדד הזה, בשילוב עם ערכים נמוכים של מדדי ניצול המחשוב, עשויים להצביע על כך שהעברת הזיכרון היא צוואר הבקבוק באפליקציות הפועלות.

DCGM_FI_PROF_DRAM_ACTIVE

המדד הזה מייצג את היחס בין המחזורים שבהם ממשק הזיכרון של ה-GPU שולח או מקבל נתונים. המדד הזה כולל טעינות ואחסונים משרשורים שמופעלים ב-SM, וגם העתקות של זיכרון אל זיכרון ה-GPU וממנו. ערכים גבוהים יותר מציינים רמות גבוהות יותר של תנועת נתונים בזיכרון.

שימוש צפוי: המדד הזה דומה למדד DCGM_FI_DEV_MEM_COPY_UTIL, אבל הוא עשוי להיות מדויק יותר.

ניצול קלט/פלט

המדדים הבאים מספקים תובנות לגבי השימוש בהעברת נתונים בין ה-GPU לבין המארח, או בין כמה מכשירי GPU. אחת הדרכים להשתמש במדדים האלה היא לזהות מתי אפליקציה מעמיסה יתר על הממשק. בגלל האופי של שידור כזה, כדאי לבדוק נתונים ברזולוציה גבוהה יותר (למשל, התפלגות) כדי לקבל תמונה מפורטת יותר של אופן הפעולה של הקישוריות.

DCGM_FI_PROF_NVLINK_RX_BYTES, DCGM_FI_PROF_NVLINK_TX_BYTES

המדדים האלה מייצגים את קצב העברת הנתונים (throughput) של NVLink בשליחה (tx) ובקבלה (rx) בבייטים.

שימוש צפוי: מעקב אחרי העומס על מחברי NVLink (בין שבבי GPU). אם הערכים של המדדים האלה קרובים לרוחב הפס הכולל הזמין של NVLink, והמדדים של ניצול המחשוב נמוכים, יכול להיות ש-NVLink הוא צוואר בקבוק באפליקציות הפועלות.

DCGM_FI_PROF_PCIE_RX_BYTES, DCGM_FI_PROF_PCIE_TX_BYTES

המדדים האלה מייצגים את קצב העברת הנתונים (throughput) של PCIe בשליחה (tx) ובקבלה (rx) בבייטים, כאשר tx הוא ה-GPU ששולח נתונים, ו-rx הוא ה-GPU שמקבל נתונים.

שימוש צפוי: מעקב אחרי העומס באפיק PCIe (בין המעבד ל-GPU). אם הערכים של המדדים האלה קרובים לרוחב הפס הכולל של אפיק ה-PCIe, והמדדים של ניצול המחשוב נמוכים, יכול להיות שאפיק ה-PCIe הוא צוואר בקבוק באפליקציות שפועלות.

ניצול הספק

המדדים הבאים מספקים תובנות לגבי ניצול ההספק של המעבד הגרפי, שלפעמים חיוניות לביצועים וליעילות של עומס העבודה.

DCGM_FI_DEV_GPU_TEMP

המדד הזה מייצג את הטמפרטורה הממוצעת בכל ליבות ה-GPU.

שימוש צפוי: מעקב אחרי מצבים שבהם ה-GPU מתקרב להתחממות יתר, בעיקר כדי לבצע קורלציה עם ויסות מהירות השעון. אפשר גם להשתמש במדד הזה כדי לזהות מעבדי GPU שנוטים להתחמם יתר על המידה, כדי להפחית את העומס עליהם באפליקציות מתקדמות יותר.

DCGM_FI_DEV_POWER_USAGE

המדד הזה מייצג את צריכת החשמל של ה-GPU בוואט. יכול להיות שתרצו לעקוב אחרי צריכת החשמל כמדד של עומס על ה-GPU. מעבדי GPU של NVIDIA משנים את שעוני המנוע בהתאם לכמות העבודה שהם מבצעים. ככל שמהירות השעון (ולכן גם מידת הניצול) עולה, כך גם צריכת החשמל.

שימוש צפוי: מעקב אחרי כמות החשמל שה-GPU צורך עבור אפליקציות משתמשים.

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

המדד הזה מייצג את צריכת האנרגיה הכוללת של ה-GPU במיליג'ול (mJ) אחרי הטעינה האחרונה של מנהל ההתקן. השיעור שמחושב על סמך המדד הזה צריך להתאים למדד צריכת החשמל.

שימוש צפוי: מעקב אחרי כמות החשמל שה-GPU צורך עבור אפליקציות משתמשים.

מדדי ביצועים של GPU

ביצועי ה-GPU מתייחסים ליעילות שבה ה-GPU יכול לבצע משימה חישובית.

DCGM_FI_DEV_MEMORY_TEMP

המדד הזה מציין את הטמפרטורה הממוצעת של בלוק הזיכרון.

שימוש צפוי: כדי להציג את הטמפרטורה של בלוק הזיכרון ולבצע קורלציה עם טמפרטורת ה-GPU.

DCGM_FI_DEV_SM_CLOCK

המדד הזה מייצג את מהירות השעון הממוצעת בכל מעבדי ה-SM. המדד הזה מחושב במרווח זמן שצוין.

שימוש צפוי: מעקב אחרי מהירות השעון כדי לזהות הגבלת רוחב פס וליצור קורלציה עם ביצועי האפליקציה.

המאמרים הבאים

איך צופים במדדי יכולת התצפית

איסוף מדדים של DCGM וצפייה בהם קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.