יכולות ניהול משופרות של אשכולות HPC מאפשרות לכם להריץ אשכולות HPC גדולים וצפופים, ומספקות את יכולות ניהול האשכולות הבאות:
- מיקום משותף של משאבים באשכול HPC
- מיקום מודעות בהתאם לטופולוגיית האשכול
- מצב הפעולה של האשכול
- תזמון של תחזוקת אשכולות ואמצעי בקרה
- כלים לניטור ולאבחון של אשכולות
מיקום משותף של משאבי תשתית HPC
כשמשתמשים במכונות H4D עם יכולות ניהול משופרות, אפשר לבקש מ-Compute Engine להקצות את המכונות כמה שיותר קרוב זו לזו. המכונות האלה מציעות את התכונות הבאות:
Compute Engine מקצה את המכונות כבלוקים של משאבים.
שיפור יכולת ההתאמה של עומסי העבודה באמצעות רשת של 200 Gbps עם Cloud RDMA.
הסידור הזה של המשאבים מצמצם את מספר הקפיצות ברשת ומבצע אופטימיזציה לזמן האחזור הנמוך ביותר ברשת. כדי לקבל מידע נוסף על השגת קיבולת לפריסת בלוקים של מכונות עם הקצאה צפופה, אפשר לעיין במאמר יצירת אשכול HPC עם יכולות ניהול משופרות.
מיקום שמודע לטופולוגיית האשכול
אחרי שיוצרים מכונות וירטואליות או אשכולות של מכונות וירטואליות מסוג H4D, אפשר לקבל מידע על הטופולוגיה ברמת הצומת והאשכול. המידע הזה עוזר לכם:
כדאי לשנות את העיצוב של האפליקציה או של עומס העבודה כדי לצמצם עוד יותר את זמן האחזור ברשת.
הסבר על בעיות בביצועים ובזמן האחזור ברשת של מכונות וירטואליות שמתקשרות אחת עם השנייה בתדירות גבוהה, ואיך לפתור אותן. הבעיות האלה יכולות לקרות אם המיקום של המכונות הווירטואליות רחוק זו מזו באופן לא צפוי.
מידע נוסף זמין במאמר בנושא הצגת הטופולוגיה של מופע Compute.
תחזוקה ושחזור מנוהלים של מכונות וירטואליות מסוג H4D
כשמזמינים קיבולת כדי ליצור מכונות וירטואליות או אשכולות מסוג H4D, Google Cloudמנהל באופן אוטומטי את תהליך התחזוקה והשחזור של המכונות הווירטואליות אחרי שגיאות במארח או דוחות שגויים של המארח. הגישה הזו, שנקראת מצב מנוהל, היא אידיאלית כשעומס העבודה דורש יציבות גבוהה, וצריך תהליך אוטומטי כדי לצמצם את זמן ההשבתה.
התכונות של מצב מנוהל:
Only use reserved capacity for recovery: Compute Engine משתמש רק בקיבולת השמורה כדי להפעיל מחדש מכונות וירטואליות. אם אין קיבולת זמינה בהזמנות שלכם, מערכת Compute Engine תפעיל מחדש את המכונות הווירטואליות רק אחרי שתשיגו קיבולת נוספת.
הפעלה מחדש אוטומטית של מכונות וירטואליות: Google Cloud מטפלת בכל תהליך השחזור של מכונה וירטואלית. כשנדרשת תחזוקת המארח, מערכת Compute Engine מעבירה באופן אוטומטי את המכונות הווירטואליות למכונות זמינות אחרות בהזמנה שלכם ומפעילה מחדש את המכונות הווירטואליות.
ניהול בלוקים וגישה למידע: אתם יכולים לראות את הטופולוגיה, את התקינות ואת סטטוס התחזוקה של הזמנות ספציפיות ושל בלוקים של הזמנות. תוכלו גם לקבל התראות לגבי פעולות תחזוקה, ואם תרצו, להתחיל את פעולות התחזוקה לפני הזמן שנקבע למשאבים האלה.
הגבלות קצב פוטנציאליות של API: יכול להיות שקריאות ל-API של דיווח על מארח פגום יוגבלו לפי קצב לכל הזמנה.
תזמון תחזוקה של אשכולות ואמצעי בקרה
אתם שולטים בתחזוקה של מכונות H4D באמצעות תזמון שמודע לטופולוגיה בבלוק של משאבים. היכולת הזו עוזרת לסנכרן שדרוגים כדי שעומסי העבודה יהיו עמידים יותר לאירועים של המארח, ומצמצמת את השיבושים.
כדי לאפשר שליטה מלאה באירועי תחזוקה, אפשר להשתמש בתכונות הבאות:
סוג התזמון של התחזוקה
כשמזמינים קיבולת כדי ליצור מכונות וירטואליות או אשכולות של מופעי מכונות וירטואליות מסוג H4D, אפשר להגדיר איך Compute Engine ישמור על התשתית שבה פועלות המכונות הווירטואליות. אתם יכולים לציין אם לקבץ את המכונות הווירטואליות ולסנכרן את תזמון התחזוקה (grouped), או שהמכונות הווירטואליות יכולות להיות בצימוד חלש ולתזמן את התחזוקה באופן עצמאי (independent).
תזמון תחזוקה לקבוצות
סוג התזמון של תחזוקה מקובצת עוזר לוודא שלא משנה מתי Compute Engine מקצה מכונה וירטואלית, לכל המכונות הווירטואליות שמריצות את אותו עומס עבודה יש את אותה תדירות מתוכננת של תחזוקה. התחזוקה הזו מאפשרת לכם לשפר את ביצועי העבודה על ידי שליטה מלאה בקיבולת שבה נעשה שימוש ובקיבולת שלא נעשה בה שימוש.
סוג התזמון של תחזוקת קבוצות שימושי במקרים הבאים:
- הסביבה שלכם משתמשת במתזמן משימות, כמו Slurm או Google Kubernetes Engine.
- אתם רוצים להריץ עומסי עבודה של מחשוב מקבילי מאוד.
תזמון תחזוקה עצמאי
סוג התזמון של תחזוקה עצמאית מאפשר להקצות מכונות וירטואליות ללוחות זמנים שונים של תחזוקה. ההגדרה הזו אידיאלית אם יש לכם עומסי עבודה שפועלים בצורה יעילה יותר כשמכונות ה-VM מתוחזקות בלוחות זמנים נפרדים.
ניהול אירועים למארחים
אחרי שיוצרים מכונות וירטואליות מסוג H4D ומתחילים את עומס העבודה, אפשר להגדיר התראות ולקבל הודעות כשתחזוקה של המכונות הווירטואליות או של בלוקים שמורים מתוזמנת, מתחילה או מסתיימת. אפשר גם להציג את התחזוקה במכונה וירטואלית או בבלוק שמור, ואם צריך, להתחיל אותה באופן ידני לפני המועד שנקבע. האפשרויות האלה עוזרות לכם לשלוט באופן יזום בזמני ההשבתה של עומסי העבודה ולצמצם אותם.
למידע נוסף, קראו את המאמרים הבאים:
כלים לניטור ולאבחון של אשכולות
לצורך מעקב ופתרון בעיות, מופעים של H4D כוללים שירות Faulty host reporting, שבו אפשר להשתמש כדי לסמן בעיות במכונות מארחות ספציפיות.
מה השלב הבא?
כדי ליצור אשכול HPC עם יכולות משופרות לניהול אשכולות, משתמשים באחת מהשיטות הבאות:
לצפות במכונות וירטואליות ולעקוב אחריהן באשכול Slurm