סקירה כללית של אשכולות HPC עם יכולות ניהול אשכולות משופרות

כדי ליצור את התשתית לאפליקציות עם צימוד הדוק שניתנות להרחבה על פני כמה צמתים, אפשר ליצור אשכול של מכונות וירטואליות (VM). במדריך הזה מוצגת סקירה כללית של השיקולים והשלבים העיקריים להגדרת אשכול של מכונות וירטואליות (VM) לעומסי עבודה של מחשוב עתיר ביצועים (HPC) באמצעות הקצאת משאבים צפופה.

עם H4D,‏ Compute Engine מוסיף תמיכה בהרצת עומסי עבודה גדולים של HPC על ידי התייחסות לאשכול שלם של מופעי מכונות וירטואליות כמחשב יחיד. שימוש במיקום מכונות וירטואליות בהתאם לטופולוגיה מאפשר לכם לגשת להרבה מופעים בתוך בלוק-על יחיד של רשת, ומצמצם את זמן האחזור ברשת. אפשר גם להגדיר Cloud RDMA במופעים האלה כדי למקסם את ביצועי התקשורת בין הצמתים, שחשובים לעומסי עבודה של HPC עם צימוד הדוק.

אתם יוצרים את אשכולות מכונות ה-VM של HPC באמצעות H4D על ידי הזמנת בלוקים של קיבולת במקום משאבים בודדים. שימוש בבלוקים של קיבולת לאשכול מאפשר יכולות ניהול משופרות של האשכול.

אפשר ליצור אשכולות HPC עם מופעי H4D עם או בלי יכולות משופרות לניהול אשכולות. אם אתם לא צריכים תכונות מתקדמות לניהול אשכולות ב-HPC של H4D, או אם אתם רוצים ליצור אשכולות HPC באמצעות סדרת מכונות אחרת מלבד H4D, אתם יכולים להשתמש בהוראות הבאות ליצירת מופעים או אשכולות של HPC:

מונחים שקשורים לאשכולות

כשעובדים עם בלוקים של קיבולת, משתמשים במונחים הבאים:

חסימה של
אוסף של בלוקים משניים שמחוברים ביניהם באמצעות בד לא חוסם, שמספק חיבור בין כל המארחים באשכול עם רוחב פס גבוה.
אשכול
אוסף של בלוקים שמחוברים ביניהם באמצעות רשת מהירה. אפשר להגדיל את מספר המעבדים (CPU) באשכול עד אלפים כדי להריץ עומסי עבודה (workloads) של HPC בקנה מידה גדול. כל אשכול הוא ייחודי באופן גלובלי. התקשורת בין בלוקים שונים מוסיפה רק עוד קפיצה אחת, כך שהביצועים והיכולת לחזות את התוצאות נשמרים ברמה גבוהה, גם בהיקף עצום. מנהלי התזמור גם יכולים לגשת למטא-נתונים ברמת האשכול כדי למקם משימות בצורה חכמה ובקנה מידה גדול.
‫Cluster Toolkit
כלי בקוד פתוח שמוצע על ידי Google ומפשט את ההגדרה והפריסה של אשכולות שמשתמשים ב-Slurm או ב-Google Kubernetes Engine. משתמשים בתוכניות מוגדרות מראש כדי ליצור תיקיית פריסה שמבוססת על התוכנית. אתם יכולים לשנות את תוכניות הפריסה או את תיקיית הפריסה כדי להתאים אישית את הפריסות ואת חבילת התוכנות. לאחר מכן משתמשים ב-Terraform או ב-Packer כדי להריץ את הפקודות שנוצרו על ידי Cluster Toolkit כדי לפרוס את האשכול.
פריסה צפופה
בקשה למשאבים שמקצה את משאבי מופע המחשוב שלכם בקרבה פיזית זה לזה כדי למזער את מספר הקפיצות ברשת ולבצע אופטימיזציה לזמן האחזור הנמוך ביותר.
רשת
תשתית רשת מספקת קישוריות עם רוחב פס גבוה וזמן אחזור נמוך בכל הבלוקים והשירותים באשכול. Google Cloud ‫Jupiter היא ארכיטקטורת רשת של מרכזי נתונים של Google שמשתמשת במיתוג רשת מוגדרת-תוכנה ובמתגי מעגלים אופטיים כדי לפתח את הרשת ולבצע אופטימיזציה של הביצועים שלה.
צומת או מארח
מכונת שרת פיזית אחת במרכז הנתונים. לכל מארח יש משאבי מחשוב משויכים כמו מעבדים, זיכרון וממשקי רשת. המספר וההגדרה של משאבי המחשוב האלה תלויים בסוג המכונה. מכונות וירטואליות מוקצות על גבי מארח פיזי.
כלי תזמור
כלי תזמור אוטומטי מאפשר לנהל את האשכולות באופן אוטומטי. בעזרת כלי תזמור, לא צריך לנהל כל מופע של מכונה וירטואלית באשכול. מערכת תזמור, כמו Slurm או Google Kubernetes Engine‏ (GKE), מטפלת במשימות כמו הוספה לתור של עבודות, הקצאת משאבים, התאמה אוטומטית לעומס (עם GKE) ומשימות אחרות של ניהול אשכולות שמתבצעות מדי יום.
תתי-בלוקים
קבוצה של מארחים וציוד קישוריות משויך שנמצאים במתקן פיזי אחד. מתג ToR (Top-of-Rack) מחבר בין המארחים האלה, ומאפשר תקשורת יעילה במיוחד בין כל שתי יחידות CPU בתוך תת-הבלוק. ‫Cloud RDMA מאפשר את התקשורת הישירה הזו.

סקירה כללית של תהליך יצירת אשכולות עם מכונות וירטואליות של H4D

כדי ליצור אשכולות HPC בבלוקים של קיבולת שמורה, צריך לבצע את השלבים הבאים:

  1. בדיקת מודלים זמינים של הקצאת הרשאות
  2. בחירת אפשרות צריכה וקבלת קיבולת
  3. בחירת אפשרות פריסה ואמצעי תזמור
  4. בחירת מערכת ההפעלה או תמונת האשכול
  5. יצירת האשכול

מודלים של הקצאת משאבים ליצירת מכונות וירטואליות ואשכולות

כשיוצרים מכונות וירטואליות, אפשר להשתמש במודלים לאספקת משאבים שמתוארים במאמר מודלים לאספקת משאבים של מכונות וירטואליות ב-Compute Engine.

כדי ליצור מופעי H4D עם צימוד הדוק, צריך להשתמש באחד ממודלי ההקצאה הבאים כדי לקבל את המשאבים הדרושים ליצירת מופעי מחשוב:

  • שמירת מקום: אתם יכולים לשריין משאבים במחיר מוזל לתאריך ולמשך זמן עתידיים. בתחילת תקופת ההזמנה, תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות או אשכולות. יש לכם גישה בלעדית למשאבים שהזמנתם למשך תקופת ההזמנה.

  • תקופת ניסיון גמישה: אפשר לבקש משאבים בהנחה למשך עד שבעה ימים. מערכת Compute Engine משתדלת לתזמן את הקצאת המשאבים שביקשתם ברגע שהם זמינים. תהיה לכם גישה בלעדית למשאבים שקיבלתם למשך התקופה שביקשתם.

  • Spot: על סמך הזמינות, אתם יכולים לקבל באופן מיידי משאבים בהנחה משמעותית. עם זאת, יכול להיות ש-Compute Engine יפסיק את הפעילות של מופעי ה-VM או ימחק אותם בכל שלב כדי לפנות קיבולת.

מודל הקצאת משאבים שקשור להזמנה

מודל ההקצאה שמוגבל להזמנה מקשר בין מופעי מכונות וירטואליות שיצרתם לבין הקיבולת ששריינתם קודם. כשאתם שומרים קיבולת,‏ Compute Engine יוצרת שמירת מקום ריקה. אחר כך, בשעת ההתחלה של שמירת המקום, קורה הדבר הבא:

  • מערכת Compute Engine מוסיפה את המשאבים שהזמנתם להזמנה. תהיה לכם גישה בלעדית לקיבולת השמורה עד לשעת הסיום של השמירה.

  • Google Cloud מחייב אתכם על הקיבולת שהוזמנה עד סוף תקופת ההזמנה, בין אם אתם משתמשים בקיבולת ובין אם לא.

לאחר מכן תוכלו להשתמש במשאבים שהוזמנו מראש כדי ליצור מכונות וירטואליות ללא חיובים נוספים. אתם משלמים רק על משאבים שלא נכללים בהזמנה, כמו דיסקים או כתובות IP.

אתם יכולים לשריין משאבים לכמה מכונות וירטואליות שתרצו, לכל תקופה שתרצו, לתאריך עתידי. לאחר מכן, תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות ולהפעיל אותן עד לסיום תקופת ההזמנה. אם שומרים משאבים לשנה אחת או יותר, צריך לרכוש ולצרף התחייבות מבוססת-משאבים.

כדי להקצות משאבים באמצעות מודל הקצאת משאבים שמוגבל להזמנה, אפשר לעיין במאמרים הבאים:

אתם יכולים להשתמש בהקצאת משאבים שמוגבלת להזמנה עם מכונות H4D על ידי ציון מודל הקצאת המשאבים שמוגבל להזמנה כשאתם יוצרים מכונות וירטואליות בודדות, אשכול HPC או קבוצה של מכונות וירטואליות.

מודל אספקה Flex-start

כדי להריץ עומסי עבודה לפרק זמן קצר שדורשים הקצאה צפופה של משאבים, אפשר לבקש משאבי מחשוב למשך עד שבעה ימים באמצעות Flex-start. בכל פעם שמשאבים זמינים, Compute Engine יוצר את מספר המכונות הווירטואליות שביקשתם. אפשר להפסיק מכונות וירטואליות עצמאיות עם הפעלה גמישה, אבל אי אפשר להפסיק מכונות וירטואליות עם הפעלה גמישה שנוצרות על ידי קבוצת מופעים מנוהלת (MIG) באמצעות בקשות לשינוי גודל. המכונות הווירטואליות עם הפעלה גמישה קיימות עד שמוחקים אותן, או עד ש-Compute Engine מוחק אותן בסיום משך ההרצה שלהן.

התחלה גמישה מתאימה לעומסי עבודה שאפשר להתחיל בכל שלב. מודל הקצאת המשאבים flex-start מקצה משאבים ממאגר קיבולת מאובטח, כך שהמשאבים שהוקצו מוקצים בצפיפות כדי למזער את זמן האחזור ברשת.

כשמוסיפים מכונות וירטואליות עם הפעלה גמישה לקבוצת מופעי מכונה מנוהלים (MIG) באמצעות בקשות לשינוי גודל, קבוצת ה-MIG יוצרת את המכונות הווירטואליות בבת אחת. הגישה הזו עוזרת לכם להימנע מחיובים מיותרים על קיבולת חלקית ש-Compute Engine עשוי לספק בזמן שאתם מחכים לקיבולת המלאה שדרושה להפעלת עומס העבודה.

אפשר להשתמש בהקצאת משאבים עם Flex-start במקרים של מופעי H4D, באמצעות כל מודל פריסה זמין.

מודל הקצאת המשאבים של Spot

כדי להריץ עומסי עבודה (workloads) עמידים בכשלים, אתם יכולים לקבל משאבי מחשוב באופן מיידי על סמך הזמינות. אתם מקבלים משאבים במחיר הנמוך ביותר האפשרי. עם זאת, יכול להיות ש-Compute Engine יפסיק את הפעילות של מכונות ה-VM מסוג Spot שנוצרו או ימחק אותן בכל שלב כדי לפנות קיבולת. התהליך הזה נקרא דחיקה.

מכונות וירטואליות במודל Spot מתאימות לעומסי עבודה שבהם הפרעות הן דבר מקובל, כמו:

  • עיבוד באצווה
  • מחשוב עתיר ביצועים (HPC)
  • ניתוח נתונים
  • אינטגרציה רציפה (CI) ופריסה רציפה (CD)
  • קידוד מדיה

אפשר להשתמש במכונות וירטואליות מסוג Spot עם כל סוג של מכונה, למעט סוגי המכונות A4X,‏ X4 ו-Bare Metal. הקצאה צפופה תלויה בזמינות המשאבים. כדי להקצות את המכונות הווירטואליות מסוג Spot בצורה צפופה יותר, אפשר להחיל עליהן מדיניות למיקום קומפקטי.

אפשר להשתמש במכונות וירטואליות מסוג Spot עם אפשרויות הפריסה הצפופה הבאות:

בחירת אפשרות צריכה וקבלת קיבולת

אפשרויות הצריכה קובעות איך המשאבים מתקבלים עבור האשכול. כדי ליצור אשכול שמשתמש ביכולות משופרות של ניהול אשכולות, צריך לבקש בלוקים של קיבולת עבור פריסה צפופה.

בטבלה הבאה מפורטים ההבדלים העיקריים בין האפשרויות לניצול בלוקים של קיבולת:

אפשרות צריכה שריון מקום שמור לעתיד לבלוקים של קיבולת הזמנות עתידיות ל-90 יום (במצב יומן) Flex-start כרטיס Spot
מאפיינים של עומס העבודה עומסי עבודה מבוזרים לטווח ארוך בקנה מידה גדול, שנדרשים להם משאבים שהוקצו בצפיפות עומסי עבודה לפרקי זמן קצרים שדורשים הקצאה צפופה של משאבים עומסי עבודה לפרקי זמן קצרים שדורשים הקצאה צפופה של משאבים עומסי עבודה ששורדים תקלות
תוחלת חיים בכל עת עד 90 ימים עד 7 ימים בכל זמן, אבל בכפוף לזכות קדימה
יכולת הפסקה לפני הזמן לא לא לא כן
הבטחת קיבולת גבוהה מאוד גבוהה מאוד אם יתאפשר אם יתאפשר
מכסה לפני שיוצרים מכונות וירטואליות, חשוב לבדוק שיש לכם מספיק נפח אחסון. מכסת המעבד (CPU) נצרכת. מכסה של מכונות שאפשר להפסיק נוצלה. מכסה של מכונות שאפשר להפסיק נוצלה.
תמחור
הקצאת משאבים צפוף צפוף צפוף רגיל (אופציונלי: מדיניות למיקום קומפקטי)
מודל הקצאת ההרשאות הזמנה בלבד הזמנה בלבד Flex-start כרטיס Spot
שיטת יצירה

כדי ליצור מכונות וירטואליות (VM) ואשכולות HPC, צריך לבצע את הפעולות הבאות:

  1. הזמנת נפח אחסון דרך צוות התמיכה בחשבון
  2. בתאריך ובשעה שבחרתם, תוכלו להשתמש בקיבולת שהוזמנה כדי ליצור אשכולות HPC. מידע נוסף על אפשרויות הפריסה

כדי ליצור מכונות וירטואליות (VM) ואשכולות HPC, צריך לבצע את הפעולות הבאות:

  1. איך יוצרים בקשה למקום שמור לעתיד במצב יומן
  2. בתאריך ובשעה שבחרתם, תוכלו להשתמש בקיבולת שהוזמנה כדי ליצור אשכולות HPC. מידע נוסף על אפשרויות הפריסה

כדי ליצור מכונות וירטואליות, בוחרים באחת מהאפשרויות הבאות:

כשקיבולת המשאבים שביקשתם תהיה זמינה, מערכת Compute Engine תקצה אותה.

אתם יכולים ליצור מכונות וירטואליות באופן מיידי. בחירת אפשרות פריסה

בחירת אפשרות פריסה

עומסי עבודה של מחשוב עתיר ביצועים (HPC) צוברים משאבי מחשוב כדי להשיג ביצועים טובים יותר מאלה של תחנת עבודה, שרת או מחשב יחידים. משתמשים ב-HPC כדי לפתור בעיות במחקר אקדמי, במדע, בעיצוב, בסימולציה ובבינה עסקית.

כדי להשתמש באשכולות HPC עם יכולות ניהול אשכולות משופרות, כדאי לבחור בסדרת המכונות H4D. אם אתם מתכננים להשתמש בסדרת מכונות אחרת, עליכם לפעול לפי ההוראות במאמר יצירת מכונת VM שמוכנה ל-HPC במקום להשתמש בשיטות הפריסה שמפורטות בדף הזה.

חלק מאפשרויות הפריסה הזמינות כוללות התקנה והגדרה של כלי תזמור לניהול משופר של אשכול ה-HPC.

כדי לבחור את האפשרות המתאימה ביותר ליצירת מכונות וירטואליות או אשכולות לתרחיש השימוש שלכם, אפשר לבחור באחת מהאפשרויות הבאות:

אפשרות תרחיש שימוש
Cluster Toolkit

אתם רוצים להשתמש בתוכנה בקוד פתוח כדי לפרוס בקלות אשכולות של Slurm ושל Google Kubernetes Engine‏ (GKE). Cluster Toolkit נועד להיות גמיש מאוד וניתן להרחבה. מידע נוסף זמין במאמרים הבאים:

GKE אתם רוצים גמישות מקסימלית בהגדרת אשכול Google Kubernetes Engine בהתאם לצרכים של עומס העבודה. מידע נוסף זמין במאמר בנושא הרצת עומסי עבודה של HPC באמצעות H4D.
שימוש ב-Compute Engine

אתם רוצים שליטה מלאה בשכבת התשתית כדי שתוכלו להגדיר כלי תזמור משלכם. מידע נוסף זמין במאמרים הבאים:

בחירת קובץ אימג' של המערכת

תמונת מערכת ההפעלה (OS) שתבחרו תלויה בשירות שבו אתם משתמשים כדי לפרוס את האשכול.

  • באשכולות ב-GKE: משתמשים בתמונת צומת של GKE, כמו מערכת הפעלה שמותאמת לקונטיינרים. אם אתם משתמשים ב-Cluster Toolkit כדי לפרוס את אשכול GKE, נעשה שימוש בתמונה של מערכת הפעלה שמותאמת לקונטיינרים כברירת מחדל. מידע נוסף על תמונות של צמתים זמין במאמר בנושא תמונות של צמתים במסמכי התיעוד של GKE.

  • לגבי אשכולות ב-Compute Engine: אפשר להשתמש באחת מהתמונות הבאות:

  • באשכולות Slurm: Cluster Toolkit פורס את אשכול Slurm עם קובץ אימג' של מכונה וירטואלית ל-HPC שמבוסס על Rocky Linux 8 ומוטב לעומסי עבודה של HPC עם צימוד הדוק.

יצירת אשכול HPC

אחרי שבודקים את תהליך יצירת האשכול ומקבלים החלטות ראשוניות לגבי עומס העבודה, יוצרים את האשכול באמצעות אחת מאפשרויות הפריסה.

יכולות משופרות לניהול אשכולות עבור אשכולות HPC

כשיוצרים מופעי H4D עם משאבים שהוקצו בצפיפות באמצעות שיטות הפריסה שמוזכרות במאמר בחירת אפשרות פריסה, אפשר להשתמש ביכולות משופרות של ניהול אשכולות HPC עם המופעים.

מידע נוסף על היכולות האלה זמין במאמר ניהול משופר של אשכולות HPC באמצעות מכונות וירטואליות מסוג H4D.

המאמרים הבאים