בעיות מוכרות

בדף הזה מתוארות בעיות ידועות שאתם עלולים להיתקל בהן בזמן הפעלת מכונות וירטואליות או אשכולות שעברו אופטימיזציה באמצעות AI. אם יש בעיות במכונות וירטואליות ב-Compute Engine, אפשר לעיין במאמר בנושא בעיות מוכרות ב-Compute Engine.

בעיות

בקטע הבא מפורטות בעיות ידועות ופתרונות עקיפים ל-AI Hypercomputer.

הפרעות בעומסי עבודה במכונות וירטואליות מסוג A4 בגלל בעיות בתוכנת קושחה (firmware) של מעבדי GPU מסוג NVIDIA B200

חברת NVIDIA זיהתה שתי בעיות בקושחה של יחידות עיבוד גרפיות (GPU) מדגם B200, שמשמשות מכונות וירטואליות (VM) מדגם A4, וגורמות להפרעות בעומסי העבודה. לדוגמה, אם אתם מבחינים בהפרעות בעומסי עבודה במכונות וירטואליות מסוג A4, כדאי לבדוק אם אחד מהתנאים הבאים מתקיים:

  • זמן הפעולה של המכונה הווירטואלית (שדה lastStartTimestamp) חורג מ-65 ימים.
  • ביומנים מוצגת הודעה Xid 149 שבה מוזכר 0x02a.

כדי לפתור את הבעיה, מומלץ לאפס את ה-GPU. כדי למנוע את הבעיה, מומלץ לאפס את ה-GPU במכונות וירטואליות מסוג A4 לפחות פעם ב-60 יום.

יכול להיות ששרת המטא-נתונים יציג מטא-נתונים ישנים של מכונה וירטואלית physicalHost

אחרי שחוויתם שגיאת מארח או השתמשתם באפשרות דיווח על API מארח פגום כדי להעביר מופע של מחשוב למארח חדש, כשאתם מריצים שאילתה בשרת המטא-נתונים, יכול להיות שיוצגו המטא-נתונים physicalHost של המארח הקודם של מופע המחשוב.

כדי לעקוף את הבעיה, אפשר לנסות את אחד מהפתרונות הבאים: