מערכות קבצים מקבילות לעומסי עבודה של HPC

Last reviewed 2025-05-19 UTC

במאמר הזה נסביר על אפשרויות האחסון ב- Google Cloud עבור עומסי עבודה של מחשוב עתיר ביצועים (HPC), וגם מתי כדאי להשתמש במערכות קבצים מקבילות לעומסי עבודה של HPC. במערכת קבצים מקבילית, כמה לקוחות משתמשים בנתיבי קלט/פלט מקבילים כדי לגשת לנתונים משותפים שמאוחסנים בכמה צמתים של אחסון ברשת.

המידע במאמר הזה מיועד לאדריכלים ולאדמינים שתפקידם לתכנן, להקצות ולנהל אחסון לעומסי עבודה של HPC שדורשים נפח אחסון גדול. במסמך הזה מניחים שיש לכם הבנה מושגית של מערכות קבצים ברשת (NFS), מערכות קבצים מקבילות, POSIX ודרישות האחסון של אפליקציות HPC.

מה זה HPC?

מערכות HPC פותרות בעיות חישוביות גדולות במהירות על ידי צבירה של כמה משאבי מחשוב. מחשוב HPC מניע מחקר וחדשנות בתעשיות שונות, כמו שירותי בריאות, מדעי החיים, מדיה, בידור, שירותים פיננסיים ואנרגיה. חוקרים, מדענים ואנליסטים משתמשים במערכות HPC כדי לבצע ניסויים, להריץ סימולציות ולהעריך אבות טיפוס. עומסי עבודה של HPC, כמו עיבוד נתונים סיסמיים, ריצוף גנומי, עיבוד מדיה ומידול אקלים, יוצרים כמויות גדולות של נתונים וניגשים אליהם בקצב הולך וגובר של נתונים ובזמני אחזור הולכים ופוחתים. אחסון וניהול נתונים עתירי ביצועים הם אבני בניין חיוניות של תשתית HPC.

אפשרויות אחסון לעומסי עבודה של HPC ב- Google Cloud

הקמה והפעלה של תשתית HPC מקומית הן יקרות, והתשתית דורשת תחזוקה שוטפת. בנוסף, בדרך כלל אי אפשר להרחיב במהירות את התשתית המקומית כדי להתאים לשינויים בביקוש. תכנון, רכישה, פריסה והוצאה משימוש של חומרה באתר לוקחים זמן רב, ולכן יש עיכובים בהוספה של משאבי HPC או ניצול חלקי של הקיבולת. ב-Cloud, אתם יכולים להקצות ביעילות תשתית HPC שמשתמשת בטכנולוגיה העדכנית ביותר, ולהתאים את הקיבולת לפי דרישה.

‫Google Cloud והשותפים הטכנולוגיים שלנו מציעים אפשרויות אחסון גמישות, ניתנות להרחבה וחסכוניות להטמעה של תשתית HPC בענן ולהרחבה של תשתית ה-HPC המקומית. מדענים, חוקרים ואנליסטים יכולים לגשת במהירות לקיבולת נוספת של HPC עבור הפרויקטים שלהם כשהם צריכים אותה.

כדי לפרוס עומס עבודה של HPC ב- Google Cloud, אפשר לבחור מבין שירותי האחסון והמוצרים הבאים, בהתאם לדרישות של עומס העבודה:

סוג עומס העבודה מוצרים ושירותים מומלצים לאחסון
עומסי עבודה שנדרשת בהם גישה לנתונים עם השהיה נמוכה, אבל לא נדרש בהם קלט/פלט קיצוני למערכי נתונים משותפים, ושבהם שיתוף הנתונים בין הלקוחות מוגבל. שימוש באחסון NFS. בוחרים אחת מהאפשרויות הבאות:
עומסי עבודה שמייצרים קלט/פלט מורכב, תלוי ורחב היקף, כמו אפליקציות HPC מצומדות שמשתמשות בממשק להעברת הודעות (MPI) לתקשורת אמינה בין תהליכים. להשתמש במערכת קבצים מקבילית. בוחרים אחת מהאפשרויות הבאות:
מידע נוסף על דרישות העומס שמערכות קבצים מקבילות יכולות לתמוך בהן זמין במאמר מתי כדאי להשתמש במערכות קבצים מקבילות.

מתי כדאי להשתמש במערכות קבצים מקבילות

במערכת קבצים מקבילית, כמה לקוחות מאחסנים נתונים משותפים וניגשים אליהם בכמה צמתים של אחסון ברשת באמצעות נתיבי קלט/פלט מקביליים. מערכות קבצים מקבילות הן פתרון אידיאלי לעומסי עבודה של HPC עם צימוד הדוק, כמו עומסי עבודה של בינה מלאכותית (AI) שדורשים הרבה נתונים ועומסי עבודה של ניתוח נתונים שמשתמשים באפליקציות של SAS. כדאי להשתמש במערכת קבצים מקבילית כמו Managed Lustre לעומסי עבודה של HPC שרגישים לזמן האחזור ועומדים באחת מהדרישות הבאות:

  • עיבוד נתונים עם תלות הדדית חזקה: עומסי עבודה של HPC כמו מודלים של מזג אוויר וחיפושים סיסמיים צריכים לעבד נתונים באופן חוזר באמצעות הרבה משימות שתלויות זו בזו ופועלות בו-זמנית בכמה שרתים. בדרך כלל, התהליכים האלה משתמשים ב-MPI כדי להחליף נתונים במרווחי זמן קבועים, והם משתמשים בשמירת מצב כדי להתאושש במהירות מכשלים. מערכות קבצים מקבילות מאפשרות ללקוחות שתלויים זה בזה לאחסן ולגשת לכמויות גדולות של נתונים משותפים בו-זמנית ברשת עם זמן אחזור נמוך.
  • תמיכה ב-POSIX I/O API ובסמנטיקה: מערכות קבצים מקבילות כמו Managed Lustre מתאימות לעומסי עבודה שנדרשים בהם גם POSIX API וגם סמנטיקה. ממשק ה-API של מערכת קבצים והסמנטיקה שלו הם יכולות נפרדות. לדוגמה, NFS תומך ב-POSIX API, שמאפשר לאפליקציות לקרוא ולכתוב נתונים באמצעות פונקציות כמו open(),‏ read() ו-write(). אבל הדרך שבה NFS מתאם גישה לנתונים בין לקוחות שונים לא זהה לסמנטיקה של POSIX לתיאום גישה לנתונים בין שרשורים שונים במחשב. לדוגמה, NFS לא תומך בעקביות של מטמון קריאה אחרי כתיבה של POSIX בין לקוחות. הוא מסתמך על עקביות חלשה ב-NFSv3 ועל עקביות של סגירה לפתיחה ב-NFSv4.
  • קיבולת של פטה-בייט: אפשר להרחיב מערכות קבצים מקבילות לקיבולת של כמה פטה-בייט במרחב שמות של מערכת קבצים אחת. ‫NetApp Volumes תומך בנפח של עד 1PB, ו-Filestore Regional ו-Zonal תומכים בנפח של עד 100TiB לכל מערכת קבצים. ‫Cloud Storage מציע קיבולת אמינה וזולה שניתנת להרחבה באופן אוטומטי, אבל יכול להיות שהיא לא תעמוד בדרישות של עומסי עבודה של HPC מבחינת סמנטיקה של שיתוף נתונים וזמן אחזור נמוך.
  • זמן אחזור נמוך ורוחב פס גבוה: במקרים של עומסי עבודה של HPC שדורשים גישה מהירה מאוד לקבצים גדולים מאוד או למיליוני קבצים קטנים, מערכות קבצים מקבילות יכולות להשיג ביצועים טובים יותר מאחסון NFS ואחסון אובייקטים. זמן האחזור של מערכות קבצים מקבילות הוא פחות ממילי-שנייה, והוא נמוך משמעותית מזה של אחסון אובייקטים, מה שיכול להשפיע על מספר פעולות הקלט/פלט המקסימלי בשנייה (IOPS). בנוסף, רוחב הפס המקסימלי שנתמך במערכות קבצים מקבילות יכול להיות גבוה פי כמה סדרי גודל מזה שבמערכות מבוססות NFS, שיכולות להגיע לרוחב הפס המקסימלי של כרטיס הרשת של מכונה וירטואלית.
  • התאמת גודל קיצונית של לקוחות: אחסון NFS יכול לתמוך באלפי לקוחות. מערכות קבצים מקבילות יכולות להתרחב כדי לתמוך בגישה בו-זמנית לנתונים משותפים מ-10,000 לקוחות ויותר, והן יכולות לספק תפוקה גבוהה ללא קשר למספר הלקוחות.

דוגמאות לאפליקציות HPC עם צימוד הדוק

בקטע הזה מתוארות דוגמאות לאפליקציות HPC עם צימוד הדוק שזקוקות לאחסון עם חביון נמוך וקצב העברה גבוה שמתקבל ממערכות קבצים מקבילות.

מודלים מולקולריים מבוססי-AI

מחקר פרמצבטי הוא תהליך יקר שדורש הרבה נתונים. ארגונים מודרניים שעוסקים במחקר תרופות מסתמכים על AI כדי להפחית את עלויות המחקר והפיתוח, להרחיב את הפעילות בצורה יעילה ולזרז את המחקר המדעי. לדוגמה, חוקרים משתמשים באפליקציות מבוססות-AI כדי לדמות את האינטראקציות בין המולקולות בתרופה ולחזות את ההשפעה של שינויים בתרכובות שבתרופה. האפליקציות האלה פועלות על מעבדי GPU מקביליים ועוצמתיים, שמעמיסים, מארגנים ומנתחים כמות עצומה של נתונים כדי להשלים סימולציות במהירות. מערכות קבצים מקבילות מספקות את ה-IOPS והתפוקה של האחסון שנדרשים למיקסום הביצועים של אפליקציות AI.

ניתוח סיכון אשראי באמצעות אפליקציות SAS

מוסדות שירותים פיננסיים כמו מלווי משכנתאות ובנקי השקעות צריכים לנתח ולעקוב באופן קבוע אחרי כושר האשראי של הלקוחות שלהם ותיקי ההשקעות שלהם. לדוגמה, חברות גדולות להלוואות משכנתא אוספות מדי יום נתונים שקשורים לסיכון לגבי אלפי לקוחות פוטנציאליים. צוותים של אנליסטים בתחום האשראי משתמשים באפליקציות ניתוח כדי לבדוק יחד חלקים שונים בנתונים של כל לקוח, כמו הכנסה, היסטוריית אשראי ודפוסי הוצאות. התובנות מהניתוח הזה עוזרות לנתח את נתוני האשראי ולקבל המלצות מדויקות ובזמן לגבי הלוואות.

כדי להאיץ ולהרחיב את ניתוח הנתונים של מערכי נתונים גדולים, מוסדות שירותים פיננסיים משתמשים בפלטפורמות של מחשוב Grid, כמו SAS Grid Manager. מערכות קבצים מקבילות כמו Managed Lustre תומכות בדרישות האחסון של אפליקציות SAS מרובות-הליכים, שכוללות תפוקה גבוהה וזמן אחזור קצר.

חיזוי מזג האוויר

כדי לחזות דפוסי מזג אוויר באזור גיאוגרפי מסוים, מטאורולוגים מחלקים את האזור לכמה תאים, ומציבים בכל תא מכשירי מעקב כמו מכשירי רדאר קרקעיים ובלוני מזג אוויר. המכשירים האלה בודקים ומודדים את תנאי האטמוספירה במרווחי זמן קבועים. המכשירים מעבירים נתונים באופן רציף לאפליקציה לחיזוי מזג האוויר שפועלת באשכול HPC.

אפליקציית חיזוי מזג האוויר מעבדת את הנתונים שמוזרמים אליה באמצעות מודלים מתמטיים שמבוססים על קשרים פיזיים ידועים בין הפרמטרים הנמדדים של מזג האוויר. משימה נפרדת מעבדת את הנתונים מכל תא באזור. כשהאפליקציה מקבלת מדידות חדשות, כל משימה חוזרת על עצמה עם הנתונים העדכניים ביותר של התא שהוקצה לה, ומחליפה פלט עם המשימות של התאים האחרים באזור. כדי לחזות דפוסי מזג אוויר בצורה מהימנה, האפליקציה צריכה לאחסן ולשתף טרה-בייט של נתונים שאלפי משימות שפועלות במקביל יוצרות וניגשות אליהם.

CFD for aircraft design

דינמיקת נוזלים חישובית (CFD) כוללת שימוש במודלים מתמטיים, בחוקים פיזיקליים ובלוגיקה חישובית כדי לדמות את ההתנהגות של גז או נוזל סביב עצם נע. כשמהנדסי מטוסים מתכננים את גוף המטוס, אחד הגורמים שהם לוקחים בחשבון הוא אווירודינמיקה. ה-CFD מאפשר למעצבים לדמות במהירות את ההשפעה של שינויים בעיצוב על האווירודינמיקה, לפני שהם משקיעים זמן וכסף בבניית אבות טיפוס יקרים. אחרי ניתוח התוצאות של כל הרצת סימולציה, המעצבים מייעלים מאפיינים כמו הנפח והצורה של רכיבים בודדים בגוף המטוס, ומריצים מחדש את הסימולציה של האווירודינמיקה. ה-CFD מאפשר למעצבי מטוסים לדמות במהירות את ההשפעה של מאות שינויים כאלה בעיצוב, בשיתוף פעולה.

כדי להשלים סימולציות עיצוב ביעילות, אפליקציות CFD צריכות גישה לנתונים משותפים בתוך פחות מאלפית השנייה, ויכולת לאחסן כמויות גדולות של נתונים במהירויות של עד 100GBps.

סקירה כללית של אפשרויות למערכת קבצים מקבילה

בקטע הזה מובאת סקירה כללית של האפשרויות שזמינות ב-Google Cloud למערכות קבצים מקבילות.

Google Cloud Managed Lustre

Managed Lustre הוא שירות בניהול Google שמספק אחסון עם תפוקה גבוהה וזמן אחזור נמוך לעומסי עבודה (workloads) של מחשוב עתיר ביצועים (HPC) שמשולבים בצורה הדוקה. הוא מאיץ באופן משמעותי את עומסי העבודה של HPC ואת האימון וההסקה של AI, כי הוא מספק גישה לנתוני ענק עם תפוקה גבוהה וזמן אחזור נמוך. מידע על שימוש ב-Managed Lustre לעומסי עבודה של AI ולמידת מכונה זמין במאמר תכנון אחסון לעומסי עבודה של AI ולמידת מכונה ב- Google Cloud. Managed Lustre מפזר נתונים על פני כמה צמתי אחסון, מה שמאפשר גישה בו-זמנית למכונות וירטואליות רבות. הגישה המקבילה הזו מבטלת צווארי בקבוק שמתרחשים במערכות קבצים רגילות, ומאפשרת לעומסי עבודה לקלוט ולעבד במהירות את כמויות הנתונים העצומות הנדרשות.

DDN Infinia

אם אתם צריכים תזמור מתקדם של נתונים באמצעות AI, אתם יכולים להשתמש ב-DDN Infinia, שזמין ב-Google Cloud Marketplace. ‫Infinia מספקת פתרון לניתוח נתונים שמבוסס על AI ומותאם להיקש, לאימון ולדיווח זמן אמת. הוא מאפשר הטמעה מהירה במיוחד של נתונים, יצירת אינדקס עשיר במטא-נתונים ושילוב חלק עם מסגרות AI כמו TensorFlow ו-PyTorch.

אלה התכונות העיקריות של DDN Infinia:

  • ביצועים גבוהים: זמן אחזור של פחות מאלפית השנייה וקצב העברת נתונים של כמה טרה-בייט לשנייה.
  • יכולת הרחבה: תומך בהרחבה מטרבייט לאקסהבייט, ויכול להכיל עד 100,000+ יחידות GPU ומיליון לקוחות בו-זמנית בפריסה אחת.
  • ריבוי דיירים עם איכות שירות (QoS) צפויה: מציע סביבות מאובטחות ומבודדות למספר דיירים עם איכות שירות צפויה לביצועים עקביים בעומסי עבודה.
  • גישה מאוחדת לנתונים: מאפשרת שילוב חלק עם אפליקציות ותהליכי עבודה קיימים באמצעות תמיכה מובנית בריבוי פרוטוקולים, כולל תמיכה ב-Amazon S3, ב-CSI וב-Cinder.
  • אבטחה מתקדמת: הצפנה מובנית, קידוד מחיקה שמודע לתחום התקלות ותמונות מצב שעוזרות להבטיח את ההגנה על הנתונים והתאימות.

Sycomp Intelligent Data Storage Platform

Sycomp Intelligent Data Storage Platform, שזמינה ב-Google Cloud Marketplace, מאפשרת להריץ עומסי עבודה (workloads) של מחשוב עתיר ביצועים (HPC),‏ AI ו-ML ונתונים גדולים ב- Google Cloud. עם Sycomp Storage אפשר לגשת לנתונים בו-זמנית מאלפי מכונות וירטואליות, לצמצם עלויות באמצעות ניהול אוטומטי של רמות אחסון ולהריץ את האפליקציה במקום או ב- Google Cloud. אפשר לפרוס את Sycomp Storage במהירות, והוא תומך בגישה לנתונים שלכם דרך NFS ולקוח IBM Storage Scale.

‫IBM Storage Scale היא מערכת קבצים מקבילית שעוזרת לנהל באופן מאובטח נפחים גדולים (PB) של נתונים. ‫Sycomp Storage Scale היא מערכת קבצים מקבילית שמתאימה במיוחד ל-HPC, ל-AI, ל-ML, לביג דאטה ולאפליקציות אחרות שדורשות מערכת קבצים משותפת שתואמת ל-POSIX. עם קיבולת אחסון שניתנת להתאמה ושינוי קנה מידה של הביצועים, Sycomp Storage יכול לתמוך בעומסי עבודה קטנים וגדולים של HPC,‏ AI ו-ML.

אחרי שמפריסים אשכול ב- Google Cloud, מחליטים איך רוצים להשתמש בו. בוחרים אם רוצים להשתמש באשכול רק בענן או במצב היברידי, על ידי חיבור לאשכולות קיימים של IBM Storage Scale מקומיים, לפתרונות NFS NAS של צד שלישי או לפתרונות אחרים של אחסון מבוסס-אובייקטים.

שותפים ביצירת התוכן

מחבר: קומאר דהנגופל | מפתח פתרונות חוצי-מוצרים

תורמי תוכן אחרים: