AI Hypercomputer הוא מערכת מחשוב-על שעברה אופטימיזציה לתמיכה בעומסי עבודה של בינה מלאכותית (AI) ולמידת מכונה (ML). זו מערכת משולבת של חומרה שעברה אופטימיזציה לביצועים, תוכנה פתוחה, מסגרות ML ומודלים גמישים של צריכה.
מערכת AI Hypercomputer משלבת שיטות מומלצות ועיצוב ברמת המערכת כדי לשפר את היעילות והפרודוקטיביות בתהליכי אימון מוקדם, כוונון והצגה של AI.
ארכיטקטורת המערכת
AI Hypercomputer מורכב מהשכבות הבאות:
- תשתית שעברה אופטימיזציה לביצועים: מכילה משאבי האצה, רשת ואחסון שמספקים את יכולות המחשוב לתמיכה בעומסי העבודה.
- תוכנה בקוד פתוח: גרסאות שעברו אופטימיזציה של מסגרות פופולריות ללמידת מכונה, כמו TensorFlow, PyTorch ו-JAX. Google מספקת מערכות הפעלה (OS) שמוגדרות עם תוכנות חיוניות למינוף משאבי המחשוב שהוקצו באשכולות שלכם. כדי לפרוס ולנהל מספר גדול של מאיצים כיחידה אחת, אפשר להשתמש ב-Cluster Director, ב-Google Kubernetes Engine או ב-Slurm. אפשר גם לפרוס את המשאבים באופן ידני באמצעות ממשקי Compute Engine API.
- אפשרויות צריכה: כמה אפשרויות להקצאת אשכולות שממטבות את העלויות ואת זמינות החומרה בהתאם לצרכים הספציפיים ולדפוסי עומס העבודה.
יתרונות
היתרונות של AI Hypercomputer:
- ביצועים גבוהים וקצב העברת נתונים יעיל: מדדי קצב העברת נתונים יעיל מודדים את הפרודוקטיביות של ה-ML. AI Hypercomputer מבצע אופטימיזציה של שכבות התזמון, זמן הריצה והתיאום.
- התחלת עבודה מהירה: AI Hypercomputer מספק כלים כמו Cluster Director וblueprints, שמאפשרים לכם לפרוס באופן אמין וחוזר מספרים גדולים של משאבים שעברו אופטימיזציה להאצה ומוגדרים לתמיכה בעומסי העבודה הכי תובעניים של AI ו-ML.
- שכבת אחסון שעברה אופטימיזציה לביצועים: שימוש בשירותי אחסון עם ביצועים גבוהים, כמו Cloud Storage ו-Google Cloud Managed Lustre, כדי לספק אחסון עם יכולת התאמה, תפוקה גבוהה וזמן אחזור נמוך לעומסי עבודה של AI ו-ML.
תרחישים לדוגמה
AI Hypercomputer נועד לתת מענה לצרכים של תרחישי השימוש הבאים:
תרחיש לדוגמה |
דוגמאות לעומסי עבודה |
|---|---|
עומסי עבודה (workloads) של AI ו-ML בקנה מידה גדול |
|
מחשוב עתיר ביצועים (HPC) |
|
המאמרים הבאים
- מידע על התשתית שעברה אופטימיזציה לביצועים של AI Hypercomputer:
- מודלים של צריכה
- מידע נוסף על ניהול אשכולות