פתרון בעיות ב-PyTorch – TPU

במדריך הזה מוסבר איך לפתור בעיות שאתם עלולים להיתקל בהן במהלך אימון מודלים של PyTorch ב-Cloud TPU. מדריך כללי יותר לתחילת העבודה עם Cloud TPU זמין במאמר מדריך למתחילים ב-PyTorch.

פתרון בעיות שקשורות לביצועים איטיים של אימון

אם אימון המודל מתבצע לאט, כדאי ליצור דוח מדדים ולבדוק אותו.

כדי לנתח אוטומטית את דוח המדדים ולספק סיכום, מריצים את עומס העבודה עם PT_XLA_DEBUG=1.

מידע נוסף על בעיות שעלולות לגרום לאימון איטי של המודל זמין במאמר הערות חשובות לגבי ביצועים.

יצירת פרופילים של ביצועים

כדי ליצור פרופיל מפורט של עומס העבודה ולגלות צווארי בקבוק, מומלץ לעיין במקורות המידע הבאים:

כלים נוספים לניפוי באגים

אפשר לציין משתני סביבה כדי לשלוט בהתנהגות של חבילת התוכנה PyTorch/XLA.

אם נתקלתם בבאג לא צפוי ואתם זקוקים לעזרה, אפשר לפתוח בעיה ב-GitHub.

ניהול טנסורים של XLA

XLA tensor Quirks מתאר מה כדאי ומה לא כדאי לעשות כשעובדים עם טנסורים של XLA ועם משקלים משותפים.