פתרון בעיות בתהליך העבודה של Cloud TPU
אחרי שעומס העבודה של האימון או ההסקה פועל ב-TPU, השלב הבא הוא לוודא שעומס העבודה פועל כצפוי. Cloud TPU יוצר מדדים ויומנים שמאפשרים לכם לחפש ולנפות באגים במכונות וירטואליות של TPU שלא מתנהגות כמצופה. במאמר הזה נתייחס למכונות וירטואליות כאלה כאל ערכים חריגים.
תהליך העבודה הכללי לפתרון בעיות הוא:
- הצגת מדדים של Cloud TPU כדי לבדוק אם יש מכונות וירטואליות חריגות של TPU
- צפייה ביומני Cloud TPU של מכונות וירטואליות של TPU חריגות
- יצירת פרופיל של עומס העבודה
אפשר לראות את המדדים והיומנים בMetrics Explorer ובLogs Explorer במסוף Google Cloud. אפשר גם להשתמש בלוחות בקרה של מעקב ורישום ביומן כדי לאסוף את כל המדדים והיומנים שקשורים ל-Cloud TPU בלוחות בקרה נפרדים.
מדדים של מכונות וירטואליות ב-Cloud TPU
Cloud Monitoring אוסף באופן אוטומטי מדדים ממעבדי ה-TPU וממכונות וירטואליות (VM) של Compute Engine שמארחות אותם. מדדים עוקבים אחרי כמויות מספריות לאורך זמן, למשל, ניצול המעבד, השימוש ברשת או משך הזמן שבו TensorCore לא פעיל. למידע נוסף על מדדים של Cloud TPU, אפשר לעיין במאמר מעקב אחרי מכונות וירטואליות של TPU.
יומנים של Cloud TPU
Cloud Logging אוסף באופן אוטומטי יומנים מ-TPU וממכונות ה-VM המארחות שלהם ב-Compute Engine. ב-Cloud Logging מתבצע מעקב אחרי אירועים שנוצרים על ידי Cloud TPU. אפשר גם להטמיע קוד כדי ליצור יומנים. מערכת Cloud TPU יוצרת שני סוגים של יומנים:
- יומנים של עובדי TPU
- יומני ביקורת של משאבים
יומני TPU Worker מכילים מידע על TPU Worker ספציפי באזור ספציפי, למשל כמות הזיכרון שזמינה ב-TPU Worker (system_available_memory_GiB).
יומני משאבים שעברו ביקורת מכילים מידע על מועד הקריאה ל-API ספציפי של Cloud TPU ועל מי שביצע את הקריאה. לדוגמה, CreateNode, UpdateNode ו-DeleteNode.
אפשר גם להשתמש בחבילת cloud-tpu-diagnostics PyPi כדי לכתוב עקבות מחסנית ליומנים. מידע נוסף זמין במאמר ניפוי באגים במכונות וירטואליות של TPU.
מידע נוסף על יומנים זמין במאמר רישום ביומן.
מרכזי בקרה של מעקב ורישום ביומן
אם יש דף אחד במסוף Google Cloud , קל יותר לראות את המדדים והיומנים שקשורים ל-Cloud TPU ולפרש אותם. מאגר GitHub monitoring-debugging מכיל קבוצה של סקריפטים וקבצי הגדרות שמשתמשים ב-Terraform כדי לפרוס אוטומטית מרכזי בקרה שמכילים את כל המדדים והיומנים שקשורים ל-Cloud TPU. כדי להגדיר את לוחות הבקרה האלה ב Google Cloud פרויקט, אפשר לעיין במאמר בנושא לוחות בקרה של ניטור ורישום ביומן.
יצירת פרופיל של עומסי העבודה במכונות TPU VM
בעזרת פרופילים אפשר לשפר את ביצועי האימון של המודל במכונות וירטואליות של TPU. משתמשים ב-TensorBoard ובתוסף TPU TensorBoard כדי ליצור פרופיל של המודל. מידע נוסף על יצירת פרופיל של עומס העבודה זמין במאמר יצירת פרופיל של המודל במכונות וירטואליות של TPU.
מידע נוסף על שימוש ב-TensorBoard עם אחת מהמסגרות הנתמכות זמין במאמרים הבאים: