במסמך הזה מוצגות אפשרויות האחסון ב- Google Cloud עבור עומסי עבודה של מחשוב עתיר ביצועים (HPC), ומוסבר מתי כדאי להשתמש במערכות קבצים מקבילות לעומסי עבודה של HPC. במערכת קבצים מקבילה, כמה לקוחות משתמשים בנתיבי קלט/פלט מקבילים כדי לגשת לנתונים משותפים שמאוחסנים בכמה צמתי אחסון ברשת.
המידע במסמך הזה מיועד לארכיטקטים ולמנהלים שתפקידם לתכנן, להקצות ולנהל אחסון עבור עומסי עבודה של HPC שדורשים הרבה נתונים. במסמך הזה מניחים שיש לכם הבנה מושגית של מערכות קבצים ברשת (NFS), מערכות קבצים מקבילות, POSIX ודרישות האחסון של אפליקציות HPC.
מה זה HPC?
מערכות HPC פותרות בעיות חישוביות גדולות במהירות על ידי צבירה של כמה משאבי מחשוב. מחשוב HPC מניע מחקר וחדשנות בתעשיות שונות, כמו בריאות, מדעי החיים, מדיה, בידור, שירותים פיננסיים ואנרגיה. חוקרים, מדענים ואנליסטים משתמשים במערכות HPC כדי לבצע ניסויים, להריץ סימולציות ולהעריך אבות טיפוס. עומסי עבודה של HPC, כמו עיבוד נתונים סיסמיים, ריצוף גנומי, עיבוד מדיה ומידול אקלים, יוצרים כמויות גדולות של נתונים וניגשים אליהם בקצב הולך וגובר של נתונים ובזמני אחזור הולכים ופוחתים. אחסון וניהול נתונים עתירי ביצועים הם אבני בניין חיוניות בתשתית HPC.
אפשרויות אחסון לעומסי עבודה של HPC ב- Google Cloud
הקמה והפעלה של תשתית HPC מקומית הן יקרות, והתשתית דורשת תחזוקה שוטפת. בנוסף, בדרך כלל אי אפשר להרחיב במהירות את התשתית המקומית כדי להתאים אותה לשינויים בביקוש. תכנון, רכישה, פריסה והוצאה משימוש של חומרה מקומית אורכים זמן רב, וכתוצאה מכך יש עיכוב בהוספה של משאבי HPC או ניצול חלקי של הקיבולת. בענן, אפשר להקצות ביעילות תשתית HPC שמשתמשת בטכנולוגיה העדכנית ביותר, ואפשר להרחיב את הקיבולת לפי דרישה.
Google Cloud והשותפים הטכנולוגיים שלנו מציעים אפשרויות אחסון חסכוניות, גמישות וניתנות להרחבה לפריסת תשתית HPC בענן ולשיפור תשתית ה-HPC המקומית שלכם. מדענים, חוקרים ואנליסטים יכולים לגשת במהירות לקיבולת נוספת של HPC לפרויקטים שלהם כשהם צריכים אותה.
כדי לפרוס עומס עבודה של HPC ב- Google Cloud, אפשר לבחור מבין שירותי האחסון והמוצרים הבאים, בהתאם לדרישות של עומס העבודה:
| סוג עומס העבודה | מוצרים ושירותים מומלצים לאחסון |
|---|---|
| עומסי עבודה שנדרשת בהם גישה לנתונים עם השהיה נמוכה, אבל לא נדרש קלט/פלט קיצוני למערכי נתונים משותפים, ושבהם שיתוף הנתונים בין הלקוחות מוגבל. | שימוש באחסון NFS. בוחרים אחת מהאפשרויות הבאות: |
| עומסי עבודה שמייצרים קלט/פלט מורכב, תלוי ורחב היקף, כמו אפליקציות HPC עם צימוד הדוק שמשתמשות בממשק העברת הודעות (MPI) לתקשורת אמינה בין תהליכים. | שימוש במערכת קבצים מקבילית. בוחרים אחת מהאפשרויות הבאות: מידע נוסף על דרישות העומס שמערכות קבצים מקבילות יכולות לתמוך בהן זמין במאמר מתי כדאי להשתמש במערכות קבצים מקבילות. |
מתי כדאי להשתמש במערכות קבצים מקבילות
במערכת קבצים מקבילית, כמה לקוחות מאחסנים נתונים משותפים וניגשים אליהם בכמה צמתים של אחסון ברשת באמצעות נתיבי קלט/פלט מקביליים. מערכות קבצים מקבילות מתאימות לעומסי עבודה של HPC עם צימוד הדוק, כמו עומסי עבודה של בינה מלאכותית (AI) עתירי נתונים ועומסי עבודה של ניתוח נתונים שמשתמשים באפליקציות של SAS. כדאי להשתמש במערכת קבצים מקבילה כמו Managed Lustre לעומסי עבודה של HPC שרגישים לזמן אחזור, עם אחת מהדרישות הבאות:
- עיבוד נתונים עם תלות הדדית: עומסי עבודה של HPC כמו מודלים של מזג אוויר וחיפושים סיסמיים צריכים לעבד נתונים באופן חוזר באמצעות הרבה משימות שתלויות זו בזו ופועלות בו-זמנית בכמה שרתים. התהליכים האלה בדרך כלל משתמשים ב-MPI כדי להחליף נתונים במרווחי זמן קבועים, והם משתמשים בשמירת מצב כדי להתאושש במהירות מכשלים. מערכות קבצים מקבילות מאפשרות ללקוחות עם תלות הדדית לאחסן ולגשת לכמויות גדולות של נתונים משותפים בו-זמנית ברשת עם זמן אחזור נמוך.
- תמיכה ב-POSIX I/O API ובסמנטיקה: מערכות קבצים מקבילות כמו Managed Lustre מתאימות לעומסי עבודה שנדרשים בהם גם POSIX API וגם סמנטיקה. ממשק API של מערכת קבצים והסמנטיקה שלו הם יכולות נפרדות. לדוגמה, NFS תומך ב-POSIX API, וכך אפליקציות קוראות וכותבות נתונים באמצעות פונקציות כמו
open(),read()ו-write(). אבל הדרך שבה NFS מתאם גישה לנתונים בין לקוחות שונים לא זהה לסמנטיקה של POSIX לתיאום גישה לנתונים בין שרשורים שונים במחשב. לדוגמה, NFS לא תומך בעקביות של מטמון קריאה אחרי כתיבה של POSIX בין לקוחות. הוא מסתמך על עקביות חלשה ב-NFSv3 ועל עקביות קרובה לפתיחה ב-NFSv4. - קיבולת של פטה-בייט: אפשר להרחיב מערכות קבצים מקבילות לקיבולת של כמה פטה-בייט במרחב שמות של מערכת קבצים אחת. NetApp Volumes תומך בנפח של עד 1PB, ו-Filestore Regional ו-Zonal תומכים בנפח של עד 100TiB לכל מערכת קבצים. Cloud Storage מציע קיבולת אמינה וזולה שמתרחבת באופן אוטומטי, אבל יכול להיות שהוא לא יעמוד בדרישות של עומסי עבודה של HPC מבחינת סמנטיקה של שיתוף נתונים וזמן אחזור קצר.
- זמן אחזור נמוך ורוחב פס גבוה: בעומסי עבודה של HPC שדורשים גישה מהירה מאוד לקבצים גדולים מאוד או למיליוני קבצים קטנים, מערכות קבצים מקבילות יכולות להשיג ביצועים טובים יותר מאחסון NFS ואחסון אובייקטים. זמן האחזור של מערכות קבצים מקבילות הוא פחות מאלפית השנייה, והוא נמוך משמעותית מזמן האחזור של אחסון אובייקטים, מה שיכול להשפיע על מספר פעולות הקלט/פלט בשנייה (IOPS) המקסימלי. בנוסף, רוחב הפס המקסימלי שנתמך על ידי מערכות קבצים מקבילות יכול להיות גבוה בסדרי גודל מזה של מערכות מבוססות NFS, שיכולות להגיע לרוויה של כרטיס הרשת של מכונה וירטואלית.
- התאמת גודל (scaling) של לקוח קיצוני: אחסון NFS יכול לתמוך באלפי לקוחות. מערכות קבצים מקבילות יכולות להתרחב כדי לתמוך בגישה בו-זמנית לנתונים משותפים מ-10,000 לקוחות ויותר, ויכולות לספק תפוקה גבוהה ללא קשר למספר הלקוחות.
דוגמאות לאפליקציות HPC עם צימוד הדוק
בקטע הזה מפורטות דוגמאות לאפליקציות HPC עם צימוד הדוק שזקוקות לאחסון עם השהיה נמוכה וקצב העברת נתונים גבוה שמסופק על ידי מערכות קבצים מקבילות.
מודלים מולקולריים מבוססי-AI
מחקר פרמצבטי הוא תהליך יקר שדורש הרבה נתונים. ארגונים שמבצעים מחקרים מודרניים בתחום התרופות מסתמכים על AI כדי להפחית את העלויות של המחקר והפיתוח, כדי להרחיב את הפעילות ביעילות וכדי להאיץ את המחקר המדעי. לדוגמה, חוקרים משתמשים באפליקציות מבוססות-AI כדי לדמות את האינטראקציות בין המולקולות בתרופה ולחזות את ההשפעה של שינויים בתרכובות שבתרופה. האפליקציות האלה פועלות על מעבדי GPU מקביליים ועוצמתיים, שמעלים, מארגנים ומנתחים כמות עצומה של נתונים כדי להשלים את הסימולציות במהירות. מערכות קבצים מקביליות מספקות את ה-IOPS ואת קצב העברת הנתונים שנדרשים כדי למקסם את הביצועים של אפליקציות AI.
ניתוח סיכון אשראי באמצעות אפליקציות SAS
מוסדות שירותים פיננסיים כמו מלווי משכנתאות ובנקי השקעות צריכים לנתח ולעקוב באופן קבוע אחרי כושר האשראי של הלקוחות שלהם ותיקי ההשקעות שלהם. לדוגמה, חברות גדולות להלוואות משכנתא אוספות מדי יום נתונים שקשורים לסיכון לגבי אלפי לקוחות פוטנציאליים. צוותים של אנליסטים בתחום האשראי משתמשים באפליקציות ניתוח כדי לבדוק יחד חלקים שונים של הנתונים של כל לקוח, כמו הכנסה, היסטוריית אשראי ודפוסי הוצאות. התובנות מהניתוח הזה עוזרות לנתח את נתוני האשראי ולקבל המלצות מדויקות ובזמן לגבי הלוואות.
כדי להאיץ את ניתוח הנתונים של מערכי נתונים גדולים ולהרחיב אותו, מוסדות שירותים פיננסיים משתמשים בפלטפורמות של מחשוב רשת, כמו SAS Grid Manager. מערכות קבצים מקבילות כמו Managed Lustre תומכות בדרישות האחסון של אפליקציות SAS מרובות-הליכים, שכוללות תפוקה גבוהה וזמן אחזור קצר.
חיזוי מזג אוויר
כדי לחזות דפוסי מזג אוויר באזור גיאוגרפי מסוים, מטאורולוגים מחלקים את האזור לכמה תאים, ומציבים בכל תא מכשירי ניטור כמו מכשירי מכ"ם קרקעיים ובלוני מזג אוויר. המכשירים האלה מבצעים תצפיות ומדידות של תנאי האטמוספירה במרווחי זמן קבועים. המכשירים משדרים נתונים באופן רציף לאפליקציה לחיזוי מזג אוויר שפועלת באשכול HPC.
אפליקציית חיזוי מזג האוויר מעבדת את הנתונים שמוזרמים באמצעות מודלים מתמטיים שמבוססים על קשרים פיזיים ידועים בין הפרמטרים הנמדדים של מזג האוויר. משימה נפרדת מעבדת את הנתונים מכל תא באזור. כשהאפליקציה מקבלת מדידות חדשות, כל משימה חוזרת על עצמה עם הנתונים העדכניים ביותר של התא שהוקצה לה, ומחליפה פלט עם המשימות של התאים האחרים באזור. כדי לחזות את דפוסי מזג האוויר בצורה מהימנה, האפליקציה צריכה לאחסן ולשתף טרה-בייט של נתונים שאלפי משימות שפועלות במקביל יוצרות וניגשות אליהם.
CFD for aircraft design
דינמיקת נוזלים חישובית (CFD) כוללת שימוש במודלים מתמטיים, בחוקים פיזיקליים ובלוגיקה חישובית כדי לדמות את ההתנהגות של גז או נוזל סביב עצם נע. כשמהנדסי מטוסים מעצבים את גוף המטוס, אחד הגורמים שהם לוקחים בחשבון הוא אווירודינמיקה. ה-CFD מאפשר למעצבים לדמות במהירות את ההשפעה של שינויים בעיצוב על האווירודינמיקה, לפני שהם משקיעים זמן וכסף בבניית אבות טיפוס יקרים. אחרי ניתוח התוצאות של כל הרצת סימולציה, המעצבים מייעלים מאפיינים כמו הנפח והצורה של רכיבים בודדים בגוף המטוס, ומריצים מחדש את הסימולציה של האווירודינמיקה. ה-CFD מאפשר למעצבי מטוסים לדמות במהירות את ההשפעה של מאות שינויים כאלה בעיצוב, בשיתוף פעולה.
כדי להשלים סימולציות עיצוב ביעילות, אפליקציות CFD צריכות גישה לנתונים משותפים עם זמן אחזור של פחות ממילי-שנייה, ויכולת לאחסן כמויות גדולות של נתונים במהירויות של עד 100GBps.
סקירה כללית של אפשרויות למערכת קבצים מקבילה
בקטע הזה יש סקירה כללית ברמה גבוהה של האפשרויות שזמינות ב-Google Cloud למערכות קבצים מקבילות.
Google Cloud Managed Lustre
Managed Lustre הוא שירות מנוהל של Google שמספק אחסון עם תפוקה גבוהה וזמן אחזור נמוך לעומסי עבודה של HPC עם צימוד הדוק. הוא מאיץ באופן משמעותי עומסי עבודה של HPC ואימון והסקת מסקנות של AI, על ידי מתן גישה עם תפוקה גבוהה וזמן אחזור נמוך למערכי נתונים עצומים. למידע על שימוש ב-Managed Lustre לעומסי עבודה של AI ו-ML, אפשר לעיין במאמר תכנון אחסון לעומסי עבודה של AI ו-ML ב- Google Cloud.Managed Lustre מפזר נתונים על פני צמתים מרובים של אחסון, מה שמאפשר גישה בו-זמנית של מכונות וירטואליות רבות. הגישה המקבילה הזו מבטלת צווארי בקבוק שמתרחשים במערכות קבצים רגילות, ומאפשרת לעומסי עבודה לקלוט ולעבד במהירות את הכמויות העצומות של הנתונים הנדרשים.
DDN Infinia
אם אתם צריכים תזמור מתקדם של נתונים מבוססי-AI, אתם יכולים להשתמש ב-DDN Infinia, שזמין ב-Google Cloud Marketplace. Infinia מספק פתרון מודיעין נתונים מבוסס-AI שעבר אופטימיזציה להסקת מסקנות, לאימון ולניתוח בזמן אמת. הוא מאפשר הטמעה מהירה במיוחד של נתונים, יצירת אינדקס עשיר במטא-נתונים ושילוב חלק עם מסגרות AI כמו TensorFlow ו-PyTorch.
אלה התכונות העיקריות של DDN Infinia:
- ביצועים גבוהים: זמן אחזור של פחות מאלפית השנייה וקצב העברת נתונים של כמה טרה-בייט לשנייה.
- יכולת הרחבה: תומך בהרחבה מטרבייט לאקסהבייט ויכול להכיל עד 100,000+ GPUs ומיליון לקוחות בו-זמנית בפריסה אחת.
- ריבוי דיירים עם איכות שירות (QoS) צפויה: מציע סביבות מאובטחות ומבודדות למספר דיירים עם איכות שירות צפויה לביצועים עקביים בעומסי עבודה.
- גישה מאוחדת לנתונים: מאפשרת שילוב חלק עם אפליקציות ותהליכי עבודה קיימים באמצעות תמיכה מובנית בריבוי פרוטוקולים, כולל פרוטוקולים שתואמים ל-Amazon S3, ל-CSI ול-Cinder.
- אבטחה מתקדמת: כוללת הצפנה מובנית, קידוד מחיקה שמודע לתחום התקלות וצילומי מצב שעוזרים להבטיח את ההגנה על הנתונים והתאימות.
Sycomp Intelligent Data Storage Platform
Sycomp Intelligent Data Storage Platform, שזמינה ב-Google Cloud Marketplace, מאפשרת להריץ עומסי עבודה של מחשוב עתיר ביצועים (HPC), AI ו-ML ונתונים גדולים ב- Google Cloud. עם Sycomp Storage אפשר לגשת לנתונים בו-זמנית מאלפי מכונות וירטואליות, לצמצם עלויות באמצעות ניהול אוטומטי של רמות אחסון ולהפעיל את האפליקציה במקום או ב- Google Cloud. אפשר לפרוס את Sycomp Storage במהירות, והוא תומך בגישה לנתונים שלכם דרך NFS ולקוח IBM Storage Scale.
IBM Storage Scale היא מערכת קבצים מקבילית שעוזרת לנהל בצורה מאובטחת נפחים גדולים (PB) של נתונים. Sycomp Storage Scale היא מערכת קבצים מקבילית שמתאימה ל-HPC, ל-AI, ל-ML, לביג דאטה וליישומים אחרים שדורשים מערכת קבצים משותפת שתואמת ל-POSIX. עם קיבולת אחסון שניתנת להתאמה ושיפור ביצועים, Sycomp Storage יכול לתמוך בעומסי עבודה קטנים וגדולים של HPC, AI ו-ML.
אחרי שמפריסים אשכול ב- Google Cloud, מחליטים איך רוצים להשתמש בו. בוחרים אם רוצים להשתמש באשכול רק בענן או במצב היברידי, על ידי חיבור לאשכולות קיימים של IBM Storage Scale מקומיים, לפתרונות NFS NAS של צד שלישי או לפתרונות אחסון אחרים מבוססי-אובייקטים.
שותפים ביצירת התוכן
מחבר: קומאר דהנגופל | מפתח פתרונות חוצי-מוצרים
תורמי תוכן אחרים:
- ברק אפשטיין | מנהל מוצר
- Carlos Boneti | Senior Staff Software Engineer
- Dean Hildebrand | Technical Director, Office of the CTO
- שון דרינגטון | מנהל קבוצת מוצרים, אחסון
- וואייט גורמן (Wyatt Gorman) | מנהל מוצר יוצא בתחום ה-HPC