סקירה כללית של אשכולות HPC עם יכולות ניהול אשכולות משופרות

כדי ליצור את התשתית לאפליקציות עם צימוד הדוק שניתנות להרחבה על פני כמה צמתים, אפשר ליצור קלאסטר של מכונות וירטואליות (VM). במדריך הזה מוצגת סקירה כללית של השיקולים והשלבים העיקריים להגדרת אשכול של מכונות וירטואליות (VM) לעומסי עבודה של מחשוב בעל ביצועים גבוהים (HPC) באמצעות הקצאת משאבים צפופה.

עם H4D,‏ Compute Engine מוסיף תמיכה בהרצת עומסי עבודה גדולים של HPC על ידי התייחסות לאשכול שלם של מופעי מכונות וירטואליות כמחשב יחיד. שימוש במיקום מכונות וירטואליות שמודע לטופולוגיה מאפשר לכם לגשת להרבה מופעים בתוך בלוק-על יחיד של רשת, ומצמצם את זמן האחזור ברשת. אפשר גם להגדיר Cloud RDMA במופעים האלה כדי למקסם את ביצועי התקשורת בין הצמתים, שחשובים לעומסי עבודה של HPC עם צימוד הדוק.

אתם יוצרים את אשכולות מכונות ה-VM של HPC באמצעות H4D על ידי הזמנת בלוקים של קיבולת במקום משאבים ספציפיים. שימוש בבלוקים של קיבולת לאשכול מאפשר יכולות ניהול משופרות של האשכול.

אפשר ליצור אשכולות HPC עם מופעי H4D עם או בלי יכולות משופרות לניהול אשכולות. אם אתם לא צריכים תכונות מתקדמות לניהול אשכולות ב-HPC של H4D, או אם אתם רוצים ליצור אשכולות HPC באמצעות סדרת מכונות אחרת מלבד H4D, אתם יכולים להשתמש בהוראות הבאות ליצירת מופעים או אשכולות של HPC:

מונחים שקשורים לאשכולות

כשעובדים עם בלוקים של קיבולת, משתמשים במונחים הבאים:

חסימה של
אוסף של בלוקים משניים שמחוברים ביניהם באמצעות בד לא חוסם, שמספק חיבור עם רוחב פס גבוה בין כל המארחים באשכול.
אשכול
אוסף של בלוקים שמחוברים ביניהם באמצעות רשת מהירה. אפשר להגדיל את גודל האשכול עד לאלפי מעבדים (CPU) כדי להריץ עומסי עבודה (workloads) של HPC בקנה מידה גדול. כל אשכול הוא ייחודי באופן גלובלי. התקשורת בין בלוקים שונים מוסיפה רק צעד אחד נוסף, כך שהביצועים והיכולת לחזות את התוצאות נשמרים ברמה גבוהה, גם בהיקף גדול מאוד. מטא-נתונים ברמת האשכול זמינים גם למנהלי תזמור למיקום חכם של משימות בהיקף גדול.
‫Cluster Toolkit
כלי בקוד פתוח שמוצע על ידי Google ומפשט את ההגדרה והפריסה של אשכולות שמשתמשים ב-Slurm או ב-Google Kubernetes Engine. משתמשים בתוכניות מוגדרות מראש כדי ליצור תיקיית פריסה שמבוססת על התוכנית. אתם יכולים לשנות את התוכניות או את תיקיית הפריסה כדי להתאים אישית את הפריסות ואת חבילת התוכנות שלכם. לאחר מכן משתמשים ב-Terraform או ב-Packer כדי להריץ את הפקודות שנוצרו על ידי Cluster Toolkit כדי לפרוס את האשכול.
פריסה צפופה
בקשה למשאבים שמקצה את משאבי מופע החישוב שלכם בקרבה פיזית זה לזה כדי למזער את מספר הקפיצות ברשת ולבצע אופטימיזציה לזמן האחזור הנמוך ביותר.
רשת
תשתית רשת מספקת קישוריות עם רוחב פס גבוה וזמן אחזור נמוך בכל הבלוקים וב Google Cloud שירותים באשכול. ‫Jupiter היא ארכיטקטורת רשת של מרכזי נתונים של Google שמשתמשת בשירותי Networking מוגדרי-תוכנה ובמיתוג מעגלים אופטיים כדי לפתח את הרשת ולבצע אופטימיזציה של הביצועים שלה.
צומת או מארח
מכונת שרת פיזית אחת במרכז הנתונים. לכל מארח יש משאבי מחשוב משויכים כמו מעבדים, זיכרון וממשקי רשת. המספר וההגדרה של משאבי המחשוב האלה תלויים בסוג המכונה. מכונות וירטואליות מוקצות על גבי מארח פיזי.
כלי תזמור
כלי תזמור אוטומטי (orchestrator) מאפשר לנהל את האשכולות באופן אוטומטי. בעזרת כלי תזמור, לא צריך לנהל כל מופע של מכונה וירטואלית באשכול. מערכת לניהול משאבים, כמו Slurm או Google Kubernetes Engine‏ (GKE), מטפלת במשימות כמו הוספת משימות לתור, הקצאת משאבים, התאמה אוטומטית לעומס (עם GKE) ומשימות אחרות של ניהול אשכולות שמתבצעות מדי יום.
תתי-בלוקים
קבוצה של מארחים וציוד קישוריות משויך שנמצאים במתלה פיזי אחד. מתג ToR (Top-of-Rack) מחבר בין המארחים האלה, ומאפשר תקשורת יעילה במיוחד של קפיצה אחת בין כל שתי יחידות CPU בתוך תת-הבלוק. ‫Cloud RDMA מאפשר את התקשורת הישירה הזו.

סקירה כללית של תהליך יצירת אשכול עם מכונות וירטואליות של H4D

כדי ליצור אשכולות HPC בבלוקים של קיבולת שמורה, צריך לבצע את השלבים הבאים:

  1. עיון במודלים הזמינים להקצאת הרשאות
  2. בחירת אפשרות צריכה וקבלת קיבולת
  3. בחירת אפשרות פריסה ואמצעי תזמור
  4. בחירת מערכת ההפעלה או תמונת האשכול
  5. יצירת האשכול

הקצאת מודלים ליצירת מכונות וירטואליות ואשכולות

כשיוצרים מכונות וירטואליות, אפשר להשתמש במודלים לאספקת משאבים שמתוארים במאמר מודלים לאספקת משאבים של מכונות וירטואליות ב-Compute Engine.

כדי ליצור מופעי H4D עם צימוד הדוק, צריך להשתמש באחד ממודלי ההקצאה הבאים כדי לקבל את המשאבים הדרושים ליצירת מופעי מחשוב:

  • שמירת מקום: אתם יכולים לשריין משאבים במחיר מוזל לתאריך ולמשך זמן עתידיים. בתחילת תקופת ההזמנה, תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות או אשכולות. יש לכם גישה בלעדית למשאבים שהזמנתם למשך תקופת ההזמנה.

  • תקופת ניסיון גמישה: אפשר לבקש משאבים בהנחה למשך עד שבעה ימים. מערכת Compute Engine משתדלת לתזמן את הקצאת המשאבים שביקשתם ברגע שהם זמינים. תהיה לכם גישה בלעדית למשאבים שקיבלתם למשך התקופה שביקשתם.

  • Spot: על סמך הזמינות, אתם יכולים לקבל באופן מיידי משאבים בהנחה משמעותית. עם זאת, יכול להיות ש-Compute Engine יפסיק את הפעילות של מכונות וירטואליות או ימחק אותן בכל שלב כדי לפנות קיבולת.

מודל הקצאת הרשאות שקשור להזמנה

מודל ההקצאה שמוגבל לשריין מקשר בין מכונות ה-VM שנוצרו לבין הקיבולת ששריינתם קודם. כשאתם שומרים קיבולת,‏ Compute Engine יוצרת שמירת מקום ריקה. אחר כך, בשעת ההתחלה של שמירת המקום, קורה הדבר הבא:

  • מערכת Compute Engine מוסיפה את המשאבים שהזמנתם להזמנה. תהיה לכם גישה בלעדית לקיבולת השמורה עד לשעת הסיום של השמירה.

  • Google Cloud מחייב אתכם על הקיבולת שהוזמנה עד סוף תקופת ההזמנה, בין אם השתמשתם בקיבולת ובין אם לא.

אחר כך תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות ללא חיובים נוספים. אתם משלמים רק על משאבים שלא נכללים בהזמנה, כמו דיסקים או כתובות IP.

אתם יכולים לשריין משאבים לכמה מכונות וירטואליות שתרצו, לכל תקופה שתרצו, לתאריך עתידי. לאחר מכן, תוכלו להשתמש במשאבים שהוזמנו כדי ליצור מכונות וירטואליות ולהפעיל אותן עד לסיום תקופת ההזמנה. אם שומרים משאבים לשנה אחת או יותר, צריך לרכוש ולצרף התחייבות מבוססת-משאבים.

כדי להקצות משאבים באמצעות מודל הקצאת משאבים שמוגבל להזמנה, אפשר לעיין במאמרים הבאים:

אתם יכולים להשתמש בהקצאת משאבים שמוגבלת להזמנה עם מכונות H4D על ידי ציון מודל הקצאת המשאבים שמוגבל להזמנה כשאתם יוצרים מכונות וירטואליות בודדות, אשכול HPC או קבוצה של מכונות וירטואליות.

מודל אספקה Flex-start

כדי להריץ עומסי עבודה לפרק זמן קצר שדורשים הקצאה צפופה של משאבים, אפשר לבקש משאבי מחשוב למשך עד שבעה ימים באמצעות Flex-start. בכל פעם שמשאבים זמינים, Compute Engine יוצר את מספר המכונות הווירטואליות שביקשתם. אפשר להפסיק מכונות וירטואליות עצמאיות עם התחלה גמישה (Flex-start), אבל אי אפשר להפסיק מכונות וירטואליות עם התחלה גמישה (Flex-start) שנוצרו על ידי קבוצת מופעי מכונה מנוהלים (MIG) באמצעות בקשות לשינוי גודל. המכונות הווירטואליות עם הפעלה גמישה קיימות עד שמוחקים אותן, או עד ש-Compute Engine מוחק אותן בסיום משך ההפעלה שלהן.

התחלה גמישה מתאימה לעומסי עבודה שאפשר להתחיל בכל שלב. מודל הקצאת המשאבים עם התחלה גמישה מקצה משאבים ממאגר קיבולת מאובטח, כך שהמשאבים שהוקצו מוקצים בצפיפות כדי לצמצם את זמן האחזור ברשת.

כשמוסיפים מכונות וירטואליות עם הפעלה גמישה לקבוצת מופעי מכונה מנוהלים (MIG) באמצעות בקשות לשינוי גודל, קבוצת ה-MIG יוצרת את המכונות הווירטואליות בבת אחת. הגישה הזו עוזרת לכם להימנע מחיובים מיותרים על קיבולת חלקית ש-Compute Engine עשוי לספק בזמן שאתם מחכים לקיבולת המלאה שדרושה להפעלת עומס העבודה.

אפשר להשתמש בהקצאת משאבים עם גמישות בהתחלה במופעי H4D, באמצעות כל מודל פריסה זמין.

מודל הקצאת הרשאות של Spot

כדי להריץ עומסי עבודה (workloads) עמידים בכשלים, אתם יכולים לקבל משאבי מחשוב באופן מיידי על סמך הזמינות. אתם מקבלים משאבים במחיר הנמוך ביותר האפשרי. עם זאת, יכול להיות ש-Compute Engine יפסיק את הפעילות של מכונות ה-VM מסוג Spot שנוצרו או ימחק אותן בכל שלב כדי לפנות קיבולת. התהליך הזה נקרא preemption.

מכונות וירטואליות במודל Spot מתאימות לעומסי עבודה שבהם הפרעות הן דבר מקובל, כמו:

  • עיבוד באצווה
  • מחשוב עתיר ביצועים (HPC)
  • ניתוח נתונים
  • אינטגרציה רציפה (CI) ופריסה רציפה (CD)
  • קידוד מדיה

אפשר להשתמש במכונות וירטואליות מסוג Spot עם כל סוג של מכונה, למעט סוגי המכונות A4X,‏ X4 ו-Bare Metal. הקצאה צפופה תלויה בזמינות המשאבים. כדי להקצות את המכונות הווירטואליות מסוג Spot בצורה קרובה יותר, אפשר להחיל עליהן מדיניות למיקום קומפקטי.

אפשר להשתמש במכונות וירטואליות מסוג Spot עם אפשרויות הפריסה הצפופה הבאות:

בחירת אפשרות צריכה וקבלת קיבולת

אפשרויות הצריכה קובעות איך המשאבים מתקבלים עבור האשכול. כדי ליצור אשכול שמשתמש ביכולות משופרות של ניהול אשכולות, צריך לבקש בלוקים של קיבולת עבור פריסה צפופה.

בטבלה הבאה מפורטים ההבדלים העיקריים בין האפשרויות לשימוש בבלוקים של נפח אחסון:

אפשרות צריכה שריון מקום שמור לעתיד לבלוקים של קיבולת הזמנות עתידיות ל-90 יום (במצב יומן) Flex-start Spot
מאפיינים של עומס העבודה עומסי עבודה מבוזרים לטווח ארוך בקנה מידה גדול, שנדרשים להם משאבים שהוקצו בצפיפות עומסי עבודה לפרקי זמן קצרים שדורשים הקצאה צפופה של משאבים עומסי עבודה לפרקי זמן קצרים שדורשים הקצאה צפופה של משאבים עומסי עבודה ששורדים תקלות
תוחלת חיים בכל עת עד 90 ימים עד 7 ימים בכל זמן, אבל בכפוף להפסקה זמנית
יכולת הפסקה לפני הזמן לא לא לא כן
הבטחת קיבולת גבוהה מאוד גבוהה מאוד אם יתאפשר אם יתאפשר
מכסה לפני שיוצרים מכונות וירטואליות, חשוב לבדוק שיש לכם מספיק נפח אחסון. לא נגבית מכסה תחויבו על מכסת משאבים שניתן להפסיק. תחויבו על מכסת משאבים שניתן להפסיק.
תמחור
הקצאת משאבים צפוף צפוף צפוף רגיל (אופציונלי: מדיניות למיקום קומפקטי)
מודל הקצאת הרשאות הזמנה בלבד הזמנה בלבד Flex-start Spot
שיטת יצירה

כדי ליצור מכונות וירטואליות (VM) ואשכולות HPC, צריך לבצע את הפעולות הבאות:

  1. הזמנת קיבולת דרך צוות התמיכה בחשבון
  2. בתאריך ובשעה שבחרתם, תוכלו להשתמש בקיבולת שהוזמנה כדי ליצור אשכולות HPC. מידע נוסף על אפשרויות פריסה

כדי ליצור מכונות וירטואליות (VM) ואשכולות HPC, צריך לבצע את הפעולות הבאות:

  1. איך יוצרים בקשה למקום שמור לעתיד במצב יומן
  2. בתאריך ובשעה שבחרתם, תוכלו להשתמש בקיבולת שהוזמנה כדי ליצור אשכולות HPC. מידע נוסף על אפשרויות פריסה

כדי ליצור מכונות וירטואליות, בוחרים באחת מהאפשרויות הבאות:

כשקיבולת המשאבים שביקשתם תהיה זמינה, מערכת Compute Engine תקצה אותה לכם.

אתם יכולים ליצור מכונות וירטואליות באופן מיידי. בחירת אפשרות פריסה

בחירת אפשרות פריסה

עומסי עבודה של מחשוב עתיר ביצועים (HPC) צוברים משאבי מחשוב כדי להשיג ביצועים טובים יותר מאלה של תחנת עבודה, שרת או מחשב יחידים. מחשוב HPC משמש לפתרון בעיות במחקר אקדמי, במדע, בעיצוב, בסימולציה ובבינה עסקית.

לצורך אשכולות HPC עם יכולות ניהול אשכולות משופרות, כדאי לבחור בסדרת המכונות H4D. אם אתם מתכננים להשתמש בסדרת מכונות אחרת, עליכם לפעול לפי ההוראות במאמר יצירת מכונת VM שמוכנה ל-HPC במקום להשתמש בשיטות הפריסה שמפורטות בדף הזה.

חלק מאפשרויות הפריסה הזמינות כוללות התקנה והגדרה של כלי תזמור לניהול משופר של אשכול ה-HPC.

כדי לבחור את האפשרות המתאימה ביותר ליצירת מכונות וירטואליות או אשכולות לתרחיש השימוש שלכם, אפשר לבחור באחת מהאפשרויות הבאות:

אפשרות תרחיש לדוגמה
Cluster Toolkit

אתם רוצים להשתמש בתוכנה בקוד פתוח כדי לפרוס אשכולות של Slurm ו-Google Kubernetes Engine ‏ (GKE) בצורה פשוטה. Cluster Toolkit נועד להיות ניתן להתאמה אישית ולהרחבה. מידע נוסף זמין במאמרים הבאים:

GKE אתם רוצים גמישות מקסימלית בהגדרת אשכול Google Kubernetes Engine בהתאם לצרכים של עומס העבודה. מידע נוסף זמין במאמר בנושא הרצת עומסי עבודה של HPC באמצעות H4D.
שימוש ב-Compute Engine

אתם רוצים שליטה מלאה בשכבת התשתית כדי שתוכלו להגדיר כלי תזמור משלכם. מידע נוסף זמין במאמרים הבאים:

בחירת קובץ אימג' של המערכת

תמונת מערכת ההפעלה (OS) שתבחרו תלויה בשירות שבו אתם משתמשים כדי לפרוס את האשכול.

  • באשכולות ב-GKE: משתמשים בתמונת צומת של GKE, כמו מערכת הפעלה שמותאמת לקונטיינרים. אם אתם משתמשים ב-Cluster Toolkit כדי לפרוס את אשכול GKE, נעשה שימוש כברירת מחדל בתמונה של מערכת הפעלה שמותאמת לקונטיינרים. מידע נוסף על תמונות של צמתים זמין במאמר בנושא תמונות של צמתים במסמכי התיעוד של GKE.

  • לאשכולות ב-Compute Engine: אפשר להשתמש באחת מהתמונות הבאות:

  • עבור אשכולות Slurm: Cluster Toolkit פורס את אשכול Slurm עם קובץ אימג' של מכונה וירטואלית של HPC שמבוסס על Rocky Linux 8 ומוטב לעומסי עבודה של HPC עם צימוד הדוק.

יצירת אשכול HPC

אחרי שבודקים את תהליך יצירת האשכול ומקבלים החלטות מקדימות לגבי עומס העבודה, יוצרים את האשכול באמצעות אחת מאפשרויות הפריסה.

יכולות משופרות לניהול אשכולות עבור אשכולות HPC

כשיוצרים מופעי H4D עם משאבים שהוקצו בצפיפות באמצעות שיטות הפריסה שמפורטות במאמר בחירת אפשרות פריסה, אפשר להשתמש ביכולות משופרות של ניהול אשכולות HPC עם המופעים.

מידע נוסף על היכולות האלה זמין במאמר ניהול משופר של אשכולות HPC באמצעות מכונות וירטואליות מסוג H4D.

המאמרים הבאים