בדף הזה מוסבר על הטכניקות הזמינות שבהן אפשר להשתמש כדי להשיג מאיצי מחשוב, כמו מעבדי GPU או TPU, על סמך הדרישות של עומסי העבודה של AI/ML. הטכניקות האלה נקראות אפשרויות צריכה של מאיץ ב-GKE. הבנה של אפשרויות הצריכה השונות עוזרת לכם לבצע אופטימיזציה של ניצול המשאבים כדי להימנע מניצול חלקי של משאבים, להגדיל את הסיכוי לקבל משאבים ולאזן בין עלות לביצועים.
הדף הזה מיועד לאדמינים ולמפעילים של פלטפורמות שמתאמים עם מהנדסי למידת מכונה (ML) כדי לקבל את המשאבים הדרושים לפריסה מוצלחת של עומסי עבודה של AI/ML.
מידע נוסף על תפקידים נפוצים ועל דוגמאות למשימות שאנחנו מתייחסים אליהן בתוכן של Google Cloud , זמין במאמר תפקידים נפוצים של משתמשים ומשימות ב-GKE.
הסבר על אפשרויות הצריכה
אפשר לבחור מבין האפשרויות הבאות כדי להשתמש במאיצים ב-GKE:
- על פי דרישה: אתם משתמשים במעבדי TPU או GPU ב-GKE בלי לתכנן מראש את הקיבולת. לפני שמבקשים משאבים, צריך לוודא שיש מספיק מכסה לפי דרישה לסוג ולכמות הספציפיים של המאיצים. השימוש על פי דרישה הוא האפשרות הכי גמישה, אבל אין ערובה לכך שיהיו מספיק משאבים על פי דרישה כדי לספק את הבקשה שלכם.
- הזמנות: אתם מזמינים משאבים לתקופה מוגדרת. הזמנה יכולה להיות אחת מהאפשרויות הבאות:
- הזמנות עתידיות: אתם מזמינים משאבים לתקופות ארוכות יותר בדרך כלל, לזמן ספציפי בעתיד. יש לכם גישה בלעדית למשאבים המוזמנים למשך התקופה הזו. כדי לבצע הזמנות עתידיות, צריך ליצור קשר עם מנהל חשבונות טכני (TAM). מידע נוסף זמין במאמרים בנושא TPU ו-GPU.
- מקום שמור לעתיד לפרק זמן של עד 90 יום (במצב יומן): אתם מבקשים קיבולת לפרק זמן מסוים, והיועץ ביומן מציע תאריכים פנויים. הזמנות עתידיות לפרק זמן של עד 90 ימים (במצב יומן) מאפשרות גמישות רבה יותר לפרקי זמן קצרים יותר וחיפוש קיבולת בשירות עצמי. מידע נוסף על בקשות למקום שמור לעתיד במצב יומן
- מקום שמור על פי דרישה: אתם יכולים לבקש הקצאה של מקום שמור על פי דרישה ברגע שהקיבולת תהיה זמינה, בדומה לאפשרות על פי דרישה. בזמן שההזמנה פעילה, אתם משלמים על המשאבים בין אם אתם משתמשים בהם ובין אם לא.
- Flex-start: אתם מקבלים משאבים שהוקצו בצפיפות לעומסי עבודה לפרק זמן קצר בלי הזמנה. אתם מבקשים מספר ספציפי של מעבדי GPU או TPU, ו-Compute Engine מקצה אותם כשקיבולת הופכת לזמינה. מעבדי ה-GPU או ה-TPU פועלים ללא הפרעה למשך עד שבעה ימים. מידע נוסף זמין במאמר בנושא הקצאת משאבים עם גמישות בהתחלה.
- Spot: אתם מקצים מכונות וירטואליות (VM) זמניות מסוג Spot, וכך נהנים מהנחות משמעותיות. עם זאת, יכול להיות שהמערכת תבצע preempt למכונות וירטואליות מסוג Spot בכל שלב, עם אזהרה של 30 שניות. מידע נוסף זמין במאמר בנושא מכונות וירטואליות מסוג Spot.
הסבר על מכסת המאיצים ב-GKE
המכסות והמגבלות של המערכת מגבילות את השימוש במשאבים של Google Cloud כדי לשמור על זמינות המשאבים לכל המשתמשים ב- Google Cloud . למכסות יש ערכי ברירת מחדל, אבל בדרך כלל אפשר לבקש לשנות אותן. מגבלות המערכת הן ערכים קבועים שאי אפשר לשנות. כברירת מחדל, בדרך כלל פרויקטים לא כוללים מכסת האצה משמעותית. צריך לבקש ולקבל אישור למכסה עבור סוגים ואזורים ספציפיים של מאיצים.
כשמנהלים את המכסות שנדרשות לעומסי העבודה, כדאי להתייחס למאפיינים הבאים:
צריך לבקש את המכסה הנדרשת לכל אפשרות צריכה. כדי לזהות את המכסה הנדרשת לכל אפשרות צריכה, אפשר לעיין בפרמטרים המתאימים של 'מכסה' שמפורטים בטבלה בחירת אפשרות צריכה. אם אין מספיק מכסה, ניסיונות ליצור אשכולות, מאגרי צמתים או לפרוס עומסי עבודה שדורשים מאיצים ייכשלו עם השגיאה
Quota exceeded.כשמשתמשים בסוגי מחשוב בהתאמה אישית ב-Autopilot, צריך לבקש הקצאת נפח אחסון. הצמתים שהוקצו כדי לעמוד בדרישות של מחלקת המחשוב עדיין צורכים את המכסה של הפרויקט עבור המאיצים שצוינו.
Google Cloud בחשבונות לתקופת ניסיון בחינם יש מגבלות על בקשות להגדלת מכסות למשאבים בעלי ערך גבוה כמו יחידות GPU ו-TPU. כדי לקבל גישה למכסת Accelerator, שדרגו לחשבון בתשלום.
כדי לבדוק את המכסה ולבקש הגדלה שלה, עוברים אל הדף Quotas במסוף Google Cloud . אפשר לסנן את המכסות של המאיצים ולבקש להגדיל אותן.
בחירת אפשרות צריכה
השיקולים הבאים יעזרו לכם לבחור את אפשרות הצריכה הטובה ביותר לעומס העבודה שלכם ב-AI/ML:
- סוג עומס העבודה: צריך לקחת בחשבון את סוג עומס העבודה שרוצים להטמיע.
הדרישות של GKE משתנות בהתאם לסוג עומס העבודה שאתם מריצים: אימון או הסקה:
- אימון: נדרשים משאבים עם ביצועים גבוהים וזיכרון משמעותי. לעומסי עבודה של אימון יש בדרך כלל משך חיים מוגדר היטב. בדרך כלל קל יותר לתכנן את עומסי העבודה האלה כי הם פחות נוטים לעליות פתאומיות בצריכת המשאבים.
- הסקת מסקנות: בדרך כלל נדרשים מאיצים שעברו אופטימיזציה כדי לאפשר יכולת הרחבה ועלות נמוכה יותר. עומסי עבודה של הסקת מסקנות יכולים לדרוש זיכרון משמעותי של מאיץ במהלך עליות פתאומיות בצריכת המשאבים.
- משך החיים על סמך שלב ההטמעה: צריך להתחשב ביעד העסקי אם מבצעים הוכחת היתכנות (POC), הערכת פלטפורמה, פיתוח או בדיקה של אפליקציה, הכנסה לשימוש או אופטימיזציה.
- זמן ההקצאה: צריך לקבוע אם עומס העבודה דורש ביצוע מיידי או שאפשר להריץ אותו בעתיד. אם אפשר להפעיל את התהליך בעתיד, צריך לקבוע עד כמה אפשר לשנות את שעת ההתחלה.
- איזון בין עלות לביצועים: כדי לבחור את המאיץ הכי חסכוני, צריך להעריך את דרישות הביצועים של עומס העבודה ואת מגבלות התקציב. כדאי לשקול את האיזון בין העלות של המאיצים לבין מאפייני הביצועים שלהם. חשוב לזכור שמאיצי ביצועים חדשים עשויים לשפר את יחסי העלות-ביצועים.
אפשר להיעזר בטבלה הבאה כדי לבחור אפשרות צריכה:
| סוג עומס העבודה | זמן ההקצאה | תוחלת חיים | אפשרות מומלצת לצריכה |
|---|---|---|---|
|
מיידית (עם אישור ההזמנה) | טווח ארוך (לכל הזמנה) | אם רוצים להשתמש במעבד GPU כלשהו (חוץ מ-A4X, A4 או A3 Ultra) או בכל TPU, צריך להשתמש בהזמנות על פי דרישה:
|
אם רוצים להשתמש ב-G2, A2, A3 High עם 8 יחידות GPU או במאיצי A3 Mega, צריך להשתמש בהזמנות עתידיות:
|
|||
|
מיידית (עם אישור ההזמנה) | עד 90 ימים | הזמנות עתידיות לפרק זמן של עד 90 יום (במצב יומן):
|
|
על פי דרישה (בכפוף לזמינות) | עד 7 ימים לכל הקצאה | מצב הקצאת משאבים מסוג Flex-start:
|
|
על פי דרישה (בכפוף לזמינות) | משתנה, אפשר לשנות אותו עם אזהרה של 30 שניות |
|
|
מיידי (בכפוף לזמינות) | אין מגבלה | על פי דרישה (יחידות GPU או יחידות TPU): |