סדרות המכונות A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (8 GPUs) מיועדות להפעלה של אשכולות בינה מלאכותית (AI) ולמידת מכונה (ML) בהיקף גדול, ומספקות את היכולות הבאות לניהול אשכולות:
- משאבי AI לתשתיות של שירותי אירוח שרתים
- מיקום מודעות בהתאם לטופולוגיית האשכול
- מצב הפעולה של האשכול
- תזמון של תחזוקת אשכולות ואמצעי בקרה
- כלי מעקב ואבחון של אשכולות
מיקום משותף של משאבי תשתית AI
כשמשתמשים ב-A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (עם 8 יחידות GPU), אפשר לבקש מכונות מארחות ש-Compute Engine מקצה כמה שיותר קרוב זו לזו. המכונות האלה מציעות את התכונות הבאות:
מערכת Compute Engine מקצה את המכונות כבלוקים של משאבים.
הסידור הזה של המשאבים מצמצם את מספר הניתובים ברשת ומבצע אופטימיזציה לזמן האחזור הנמוך ביותר ברשת. במאמר סקירה כללית על קיבולת מוסבר איך להשיג קיבולת לפריסה של בלוקים בצפיפות גבוהה של מכונות שעברו אופטימיזציה להאצה.
מיקום שמודע לטופולוגיה של האשכול
אחרי שיוצרים מכונות וירטואליות באמצעות סוגי המכונות A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (עם 8 יחידות GPU), אפשר לקבל מידע על הטופולוגיה ברמת הצומת וברמת האשכול. המידע הזה עוזר לכם:
כדאי לשנות את העיצוב של האפליקציה או של עומס העבודה כדי לצמצם עוד יותר את זמן האחזור ברשת.
הסבר על בעיות נפוצות בהוספה לאינדקס והפתרונות שלהן הבעיות האלה יכולות לקרות אם המיקומים של המופעים רחוקים זה מזה באופן לא צפוי.
מידע נוסף זמין במאמר בנושא הצגת הטופולוגיה של מופעי מחשוב.
מצב הפעולה של האשכול
כשמשריינים קיבולת כדי ליצור מופעי מחשוב או אשכולות באמצעות סוגי המכונות A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (8 GPUs), סוג המכונה שאתם משריינים קובע את מצב הפעולה של האשכול עבור המופעים. המצב הזה מציין איך המופעים מתנהגים אחרי שגיאות במארח או דוחות שגויים של המארח. מצבי הפעולה הזמינים למכונה הם מצב מנוהל, שבו Compute Engine מחליף באופן אוטומטי כל מכונה פגומה, אבל שומר חלק מהקיבולת המוזמנת כדי לוודא שלמכונות יש את המשאבים הדרושים להפעלה מחדש. או מצב קיבולת מלאה, שבו יש לכם גישה לקיבולת המלאה שהזמנתם, אבל אתם אחראים לניהול של כשלים ותחזוקה מתוכננת.
מידע נוסף זמין במאמר בנושא מצב הפעלה של הזמנה.
תזמון תחזוקה של אשכולות ואמצעי בקרה
אתם יכולים לשלוט בתחזוקה של מכונות A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (עם 8 מעבדי GPU) באמצעות תזמון שמודע לטופולוגיה בבלוק של משאבים. היכולת הזו עוזרת לסנכרן שדרוגים כדי שעומסי העבודה יהיו עמידים יותר לאירועים של המארח, וכדי למזער שיבושים. הגישה הזו עוזרת לשפר את התפוקה האפקטיבית של עומס העבודה.
כדי לאפשר שליטה מלאה באירועי תחזוקה, אפשר להשתמש בתכונות הבאות:
סוג התזמון של התחזוקה
כשמזמינים קיבולת כדי ליצור מכונות וירטואליות או אשכולות של מכונות A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (עם 8 יחידות GPU), אפשר להגדיר איך Compute Engine ישמור על התשתית שהמכונות הווירטואליות פועלות עליה. בהתאם לסוג המכונה שרוצים להשתמש בה עבור המופעים, אפשר לבחור בין תחזוקה מסונכרנת בכל המופעים (grouped) לבין לוחות זמנים שונים לתחזוקה (independent).
מידע נוסף זמין במאמר בנושא סוגים של תזמון תחזוקה.
ניהול אירועים למארחים
אחרי שיוצרים מופעים מסוג A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (8 יחידות GPU) ומתחילים את עומס העבודה, אפשר להגדיר התראות ולקבל הודעות כשתחזוקה של המופעים או של בלוקים שמורים מתוזמנת, מתחילה או מסתיימת. אתם יכולים גם לראות את המועד שנקבע לתחזוקה של מכונה או של בלוק שמור, ואם צריך, להתחיל את התחזוקה באופן ידני לפני המועד הזה. האפשרויות האלה עוזרות לכם לשלוט באופן יזום בזמני ההשבתה של עומסי העבודה ולצמצם אותם.
למידע נוסף, קראו את המאמרים הבאים:
כלים לניטור ולאבחון של אשכולות
לצורך ניטור ופתרון בעיות, מכונות A4X Max, A4X, A4, A3 Ultra, A3 Mega ו-A3 High (עם 8 יחידות GPU) כוללות את השירותים הבאים:
תחזית לגבי ירידה ברמת התקינות של מכונות וירטואליות, שעוזרת לכם לזהות מכונות וירטואליות שצפויות לסבול מירידה ברמת התקינות בתוך חמש השעות הבאות.
דיווח על מארח פגום, שאפשר להשתמש בו כדי לסמן בעיות במכונות מארחות ספציפיות.
תמיכה במדדים של Cloud Monitoring, שעוזרים לעקוב אחרי הביצועים של רשתות ושל יחידות GPU.