כדי ליצור את התשתית לאפליקציות עם צימוד הדוק שניתנות להרחבה על פני כמה צמתים, אפשר ליצור קלאסטר של מכונות וירטואליות (VM). במדריך הזה מוצגת סקירה כללית של השיקולים והשלבים העיקריים להגדרת אשכול של מכונות וירטואליות (VM) לעומסי עבודה של מחשוב בעל ביצועים גבוהים (HPC) באמצעות הקצאת משאבים צפופה.
עם H4D, Compute Engine מוסיף תמיכה בהרצת עומסי עבודה גדולים של HPC על ידי התייחסות לאשכול שלם של מופעי מכונות וירטואליות כמחשב יחיד. שימוש במיקום מכונות וירטואליות שמודע לטופולוגיה מאפשר לכם לגשת להרבה מופעים בתוך בלוק-על יחיד של רשת, ומצמצם את זמן האחזור ברשת. אפשר גם להגדיר Cloud RDMA במופעים האלה כדי למקסם את ביצועי התקשורת בין הצמתים, שחשובים לעומסי עבודה של HPC עם צימוד הדוק.
אתם יוצרים את אשכולות מכונות ה-VM של HPC באמצעות H4D על ידי הזמנת בלוקים של קיבולת במקום משאבים ספציפיים. שימוש בבלוקים של קיבולת לאשכול מאפשר יכולות ניהול משופרות של האשכול.
אפשר ליצור אשכולות HPC עם מופעי H4D עם או בלי יכולות משופרות לניהול אשכולות. אם אתם לא צריכים תכונות מתקדמות לניהול אשכולות ב-HPC של H4D, או אם אתם רוצים ליצור אשכולות HPC באמצעות סדרת מכונות אחרת מלבד H4D, אתם יכולים להשתמש בהוראות הבאות ליצירת מופעים או אשכולות של HPC:
מונחים שקשורים לאשכולות
כשעובדים עם בלוקים של קיבולת, משתמשים במונחים הבאים:
סקירה כללית של תהליך יצירת אשכול עם מכונות וירטואליות של H4D
כדי ליצור אשכולות HPC בבלוקים של קיבולת שמורה, צריך לבצע את השלבים הבאים:
- עיון במודלים הזמינים להקצאת הרשאות
- בחירת אפשרות צריכה וקבלת קיבולת
- בחירת אפשרות פריסה ואמצעי תזמור
- בחירת מערכת ההפעלה או תמונת האשכול
- יצירת האשכול
הקצאת מודלים ליצירת מכונות וירטואליות ואשכולות
כשיוצרים מכונות וירטואליות, אפשר להשתמש במודלים לאספקת משאבים שמתוארים במאמר מודלים לאספקת משאבים של מכונות וירטואליות ב-Compute Engine.
כדי ליצור מופעי H4D עם צימוד הדוק, צריך להשתמש באחד ממודלי ההקצאה הבאים כדי לקבל את המשאבים הדרושים ליצירת מופעי מחשוב:
שמירת מקום: אתם יכולים לשריין משאבים במחיר מוזל לתאריך ולמשך זמן עתידיים. בתחילת תקופת ההזמנה, תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות או אשכולות. יש לכם גישה בלעדית למשאבים שהזמנתם למשך תקופת ההזמנה.
תקופת ניסיון גמישה: אפשר לבקש משאבים בהנחה למשך עד שבעה ימים. מערכת Compute Engine משתדלת לתזמן את הקצאת המשאבים שביקשתם ברגע שהם זמינים. תהיה לכם גישה בלעדית למשאבים שקיבלתם למשך התקופה שביקשתם.
Spot: על סמך הזמינות, אתם יכולים לקבל באופן מיידי משאבים בהנחה משמעותית. עם זאת, יכול להיות ש-Compute Engine יפסיק את הפעילות של מכונות וירטואליות או ימחק אותן בכל שלב כדי לפנות קיבולת.
מודל הקצאת הרשאות שקשור להזמנה
מודל ההקצאה שמוגבל לשריין מקשר בין מכונות ה-VM שנוצרו לבין הקיבולת ששריינתם קודם. כשאתם שומרים קיבולת, Compute Engine יוצרת שמירת מקום ריקה. אחר כך, בשעת ההתחלה של שמירת המקום, קורה הדבר הבא:
מערכת Compute Engine מוסיפה את המשאבים שהזמנתם להזמנה. תהיה לכם גישה בלעדית לקיבולת השמורה עד לשעת הסיום של השמירה.
Google Cloud מחייב אתכם על הקיבולת שהוזמנה עד סוף תקופת ההזמנה, בין אם השתמשתם בקיבולת ובין אם לא.
אחר כך תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות ללא חיובים נוספים. אתם משלמים רק על משאבים שלא נכללים בהזמנה, כמו דיסקים או כתובות IP.
אתם יכולים לשריין משאבים לכמה מכונות וירטואליות שתרצו, לכל תקופה שתרצו, לתאריך עתידי. לאחר מכן, תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות ולהפעיל אותן עד לסיום תקופת ההזמנה. אם שומרים משאבים לשנה אחת או יותר, צריך לרכוש ולצרף התחייבות מבוססת-משאבים.
כדי להקצות משאבים באמצעות מודל הקצאת משאבים שמוגבל להזמנה, אפשר לעיין במאמרים הבאים:
לעומסי עבודה מבוזרים בקנה מידה גדול שפועלים לאורך זמן עם הקצאה צפופה של משאבים: שמירת קיבולת דרך צוות התמיכה בחשבון
עבור עומסי עבודה מבוזרים לטווח קצר (עד 90 ימים) עם הקצאת משאבים צפופה: בקשות למקום שמור לעתיד במצב יומן
אתם יכולים להשתמש בהקצאת משאבים שמוגבלת להזמנה עם מכונות H4D על ידי ציון מודל הקצאת המשאבים שמוגבל להזמנה כשאתם יוצרים מכונות וירטואליות בודדות, אשכול HPC או קבוצה של מכונות וירטואליות.
מודל אספקה Flex-start
כדי להריץ עומסי עבודה לפרק זמן קצר שדורשים הקצאה צפופה של משאבים, אפשר לבקש משאבי מחשוב למשך עד שבעה ימים באמצעות Flex-start. בכל פעם שמשאבים זמינים, Compute Engine יוצר את מספר המכונות הווירטואליות שביקשתם. אפשר להפסיק מכונות וירטואליות עצמאיות עם התחלה גמישה (Flex-start), אבל אי אפשר להפסיק מכונות וירטואליות עם התחלה גמישה (Flex-start) שנוצרו על ידי קבוצת מופעי מכונה מנוהלים (MIG) באמצעות בקשות לשינוי גודל. המכונות הווירטואליות עם הפעלה גמישה קיימות עד שמוחקים אותן, או עד ש-Compute Engine מוחק אותן בסיום משך ההפעלה שלהן.
התחלה גמישה מתאימה לעומסי עבודה שאפשר להתחיל בכל שלב. מודל הקצאת המשאבים עם התחלה גמישה מקצה משאבים ממאגר קיבולת מאובטח, כך שהמשאבים שהוקצו מוקצים בצפיפות כדי לצמצם את זמן האחזור ברשת.
כשמוסיפים מכונות וירטואליות עם הפעלה גמישה לקבוצת מופעי מכונה מנוהלים (MIG) באמצעות בקשות לשינוי גודל, קבוצת ה-MIG יוצרת את המכונות הווירטואליות בבת אחת. הגישה הזו עוזרת לכם להימנע מחיובים מיותרים על קיבולת חלקית ש-Compute Engine עשוי לספק בזמן שאתם מחכים לקיבולת המלאה שדרושה להפעלת עומס העבודה.
אפשר להשתמש בהקצאת משאבים עם גמישות בהתחלה במופעי H4D, באמצעות כל מודל פריסה זמין.
מודל הקצאת הרשאות של Spot
כדי להריץ עומסי עבודה (workloads) עמידים בכשלים, אתם יכולים לקבל משאבי מחשוב באופן מיידי על סמך הזמינות. אתם מקבלים משאבים במחיר הנמוך ביותר האפשרי. עם זאת, יכול להיות ש-Compute Engine יפסיק את הפעילות של מכונות ה-VM מסוג Spot שנוצרו או ימחק אותן בכל שלב כדי לפנות קיבולת. התהליך הזה נקרא preemption.
מכונות וירטואליות במודל Spot מתאימות לעומסי עבודה שבהם הפרעות הן דבר מקובל, כמו:
- עיבוד באצווה
- מחשוב עתיר ביצועים (HPC)
- ניתוח נתונים
- אינטגרציה רציפה (CI) ופריסה רציפה (CD)
- קידוד מדיה
אפשר להשתמש במכונות וירטואליות מסוג Spot עם כל סוג של מכונה, למעט סוגי המכונות A4X, X4 ו-Bare Metal. הקצאה צפופה תלויה בזמינות המשאבים. כדי להקצות את המכונות הווירטואליות מסוג Spot בצורה קרובה יותר, אפשר להחיל עליהן מדיניות למיקום קומפקטי.
אפשר להשתמש במכונות וירטואליות מסוג Spot עם אפשרויות הפריסה הצפופה הבאות:
- יצירת אשכול HPC Slurm עם H4D
- יצירת מכונות בכמות גדולה שמותאמות לצריכת מעבד גבוהה עם H4D
- יצירת קבוצת מופעי מכונה מנוהלים (MIG) של HPC עם סדרת מכונות H4D
בחירת אפשרות צריכה וקבלת קיבולת
אפשרויות הצריכה קובעות איך המשאבים מתקבלים עבור האשכול. כדי ליצור אשכול שמשתמש ביכולות משופרות של ניהול אשכולות, צריך לבקש בלוקים של קיבולת עבור פריסה צפופה.
בטבלה הבאה מפורטים ההבדלים העיקריים בין האפשרויות לשימוש בבלוקים של נפח אחסון:
| אפשרות צריכה | שריון מקום שמור לעתיד לבלוקים של קיבולת | הזמנות עתידיות ל-90 יום (במצב יומן) | Flex-start | Spot |
|---|---|---|---|---|
| מאפיינים של עומס העבודה | עומסי עבודה מבוזרים לטווח ארוך בקנה מידה גדול, שנדרשים להם משאבים שהוקצו בצפיפות | עומסי עבודה לפרקי זמן קצרים שדורשים הקצאה צפופה של משאבים | עומסי עבודה לפרקי זמן קצרים שדורשים הקצאה צפופה של משאבים | עומסי עבודה ששורדים תקלות |
| תוחלת חיים | בכל עת | עד 90 ימים | עד 7 ימים | בכל זמן, אבל בכפוף להפסקה זמנית |
| יכולת הפסקה לפני הזמן | לא | לא | לא | כן |
| הבטחת קיבולת | גבוהה מאוד | גבוהה מאוד | אם יתאפשר | אם יתאפשר |
| מכסה | לפני שיוצרים מכונות וירטואליות, חשוב לבדוק שיש לכם מספיק נפח אחסון. | לא נגבית מכסה | תחויבו על מכסת משאבים שניתן להפסיק. | תחויבו על מכסת משאבים שניתן להפסיק. |
| תמחור |
|
|
|
|
| הקצאת משאבים | צפוף | צפוף | צפוף | רגיל (אופציונלי: מדיניות למיקום קומפקטי) |
| מודל הקצאת הרשאות | הזמנה בלבד | הזמנה בלבד | Flex-start | Spot |
| שיטת יצירה | כדי ליצור מכונות וירטואליות (VM) ואשכולות HPC, צריך לבצע את הפעולות הבאות:
|
כדי ליצור מכונות וירטואליות (VM) ואשכולות HPC, צריך לבצע את הפעולות הבאות:
|
כדי ליצור מכונות וירטואליות, בוחרים באחת מהאפשרויות הבאות:
כשקיבולת המשאבים שביקשתם תהיה זמינה, מערכת Compute Engine תקצה אותה לכם. |
אתם יכולים ליצור מכונות וירטואליות באופן מיידי. בחירת אפשרות פריסה |
בחירת אפשרות פריסה
עומסי עבודה של מחשוב עתיר ביצועים (HPC) צוברים משאבי מחשוב כדי להשיג ביצועים טובים יותר מאלה של תחנת עבודה, שרת או מחשב יחידים. מחשוב HPC משמש לפתרון בעיות במחקר אקדמי, במדע, בעיצוב, בסימולציה ובבינה עסקית.
לצורך אשכולות HPC עם יכולות ניהול אשכולות משופרות, כדאי לבחור בסדרת המכונות H4D. אם אתם מתכננים להשתמש בסדרת מכונות אחרת, עליכם לפעול לפי ההוראות במאמר יצירת מכונת VM שמוכנה ל-HPC במקום להשתמש בשיטות הפריסה שמפורטות בדף הזה.
חלק מאפשרויות הפריסה הזמינות כוללות התקנה והגדרה של כלי תזמור לניהול משופר של אשכול ה-HPC.
כדי לבחור את האפשרות המתאימה ביותר ליצירת מכונות וירטואליות או אשכולות לתרחיש השימוש שלכם, אפשר לבחור באחת מהאפשרויות הבאות:
| אפשרות | תרחיש לדוגמה |
|---|---|
| Cluster Toolkit | אתם רוצים להשתמש בתוכנה בקוד פתוח כדי לפרוס אשכולות של Slurm ו-Google Kubernetes Engine (GKE) בצורה פשוטה. Cluster Toolkit נועד להיות ניתן להתאמה אישית ולהרחבה. מידע נוסף זמין במאמרים הבאים: |
| GKE | אתם רוצים גמישות מקסימלית בהגדרת אשכול Google Kubernetes Engine בהתאם לצרכים של עומס העבודה. מידע נוסף זמין במאמר בנושא הרצת עומסי עבודה של HPC באמצעות H4D. |
| שימוש ב-Compute Engine | אתם רוצים שליטה מלאה בשכבת התשתית כדי שתוכלו להגדיר כלי תזמור משלכם. מידע נוסף זמין במאמרים הבאים:
|
בחירת קובץ אימג' של המערכת
תמונת מערכת ההפעלה (OS) שתבחרו תלויה בשירות שבו אתם משתמשים כדי לפרוס את האשכול.
באשכולות ב-GKE: משתמשים בתמונת צומת של GKE, כמו מערכת הפעלה שמותאמת לקונטיינרים. אם אתם משתמשים ב-Cluster Toolkit כדי לפרוס את אשכול GKE, נעשה שימוש כברירת מחדל בתמונה של מערכת הפעלה שמותאמת לקונטיינרים. מידע נוסף על תמונות של צמתים זמין במאמר בנושא תמונות של צמתים במסמכי התיעוד של GKE.
לאשכולות ב-Compute Engine: אפשר להשתמש באחת מהתמונות הבאות:
- קובץ אימג' של מכונה וירטואלית ל-HPC: קובץ אימג' של Rocky Linux 8 שעבר אופטימיזציה לעומסי עבודה של HPC עם צימוד הדוק.
- קובץ אימג' של מערכת ההפעלה שסופק על ידי Google Cloud: קובצי אימג' של מערכת ההפעלה שתומכים ב-H4D. תצטרכו להגדיר את ההגדרות האלה עבור עומסי העבודה שלכם ב-HPC.
- תמונות בהתאמה אישית: אתם יכולים ליצור תמונות בהתאמה אישית ולהשתמש בהן. כדי לכלול אופטימיזציות ספציפיות ל-HPC, מומלץ ליצור אימג' בהתאמה אישית באמצעות אימג' של מכונת VM ל-HPC.
עבור אשכולות Slurm: Cluster Toolkit פורס את אשכול Slurm עם קובץ אימג' של מכונה וירטואלית של HPC שמבוסס על Rocky Linux 8 ומוטב לעומסי עבודה של HPC עם צימוד הדוק.
יצירת אשכול HPC
אחרי שבודקים את תהליך יצירת האשכול ומקבלים החלטות מקדימות לגבי עומס העבודה, יוצרים את האשכול באמצעות אחת מאפשרויות הפריסה.
יכולות משופרות לניהול אשכולות עבור אשכולות HPC
כשיוצרים מופעי H4D עם משאבים שהוקצו בצפיפות באמצעות שיטות הפריסה שמפורטות במאמר בחירת אפשרות פריסה, אפשר להשתמש ביכולות משופרות של ניהול אשכולות HPC עם המופעים.
מידע נוסף על היכולות האלה זמין במאמר ניהול משופר של אשכולות HPC באמצעות מכונות וירטואליות מסוג H4D.
המאמרים הבאים
- מידע נוסף על Cluster Toolkit
- כדאי לנסות את המדריך למתחילים פריסת אשכול HPC באמצעות Slurm.
- עיון בשיטות מומלצות להרצה של עומסי עבודה של HPC