Google Cloud מתמקדת באספקת תשתית בינה מלאכותית (AI) ברמה עולמית, כדי להפעיל את עומסי העבודה התובעניים ביותר שמואצים על ידי GPU במגוון רחב של תחומים. אפשר להשתמש במעבדי GPU ב- Google Cloud כדי להריץ בינה מלאכותית, למידת מכונה (ML), יישומים מדעיים, ניתוח נתונים, הנדסה, יישומים לצרכנים ויישומים ארגוניים.
במסגרת השותפות שלנו עם NVIDIA, Google Cloud מספקת את יחידות ה-GPU העדכניות ביותר, תוך אופטימיזציה של חבילת התוכנה עם מגוון רחב של אפשרויות אחסון ורשת. רשימה מלאה של יחידות ה-GPU הזמינות מופיעה במאמר בנושא פלטפורמות GPU.
בקטעים הבאים מפורטים היתרונות של יחידות GPU ב- Google Cloud.
מכונות וירטואליות עם האצת GPU
ב- Google Cloud, אתם יכולים לגשת ל-GPU ולהקצות אותו בדרך שהכי מתאימה לצרכים שלכם. יש משפחת מכונות מיוחדת שעברה אופטימיזציה להאצה, עם מעבדי GPU מחוברים מראש ויכולות רשת שמתאימות למיקסום הביצועים. הם זמינים בסדרות המכונות A4X Max, A4X, A4, A3, A2, G4 ו-G2.
אפשרויות שונות להקצאת הרשאות
אפשר להקצות אשכולות באמצעות משפחת המכונות שעברה אופטימיזציה להאצה עם כל אחד מהמוצרים הבאים של קוד פתוח או Google Cloud .
Vertex AI
Vertex AI היא פלטפורמה מנוהלת באופן מלא ללמידת מכונה (ML) שבעזרתה אתם יכולים לאמן ולפרוס מודלים של למידת מכונה ויישומי AI. באפליקציות של Vertex AI, אתם יכולים להשתמש במכונות וירטואליות עם האצת GPU כדי לשפר את הביצועים בדרכים הבאות:
- שימוש במכונות וירטואליות עם GPU במאגרי עובדים של GKE לאימון בהתאמה אישית.
- שימוש במודלים של LLM בקוד פתוח מ-Vertex AI Model Garden.
- הפחתת זמן האחזור של החיזוי.
- שיפור הביצועים של קוד notebook ב-Vertex AI Workbench.
- שיפור הביצועים של סביבת זמן ריצה ב-Colab Enterprise.
AI Hypercomputer
AI Hypercomputer הוא מערכת מחשוב-על שעברה אופטימיזציה לתמיכה בעומסי עבודה של בינה מלאכותית (AI) ולמידת מכונה (ML). זו מערכת משולבת של חומרה שעברה אופטימיזציה לביצועים, תוכנה פתוחה, מסגרות ML ומודלים גמישים של צריכה. תכונות ושירותים של AI Hypercomputer שנועדו לאפשר לכם לפרוס ולנהל מספרים גדולים, עד עשרות אלפים, של משאבי האצה ורשתות שפועלים כיחידה הומוגנית אחת. האפשרות הזו מתאימה במיוחד ליצירת תשתית עם הקצאה צפופה ומותאמת לביצועים, שכוללת שילובים של Google Kubernetes Engine (GKE) ומתזמני Slurm. מידע נוסף זמין במאמר סקירה כללית על AI Hypercomputer.
כדי להתחיל לעבוד עם Cluster Director, אפשר לעיין במאמר בנושא בחירת אסטרטגיית פריסה.
Compute Engine
אפשר גם ליצור ולנהל מכונות וירטואליות ספציפיות או אשכולות קטנים של מכונות וירטואליות עם כרטיסי GPU שמצורפים ל-Compute Engine. השיטה הזו משמשת בעיקר להרצת עומסי עבודה עתירי גרפיקה, עומסי עבודה של סימולציות או הדרכה של מודלים קטנים של למידת מכונה (ML).
בטבלה הבאה מפורטות השיטות שבהן אפשר להשתמש כדי ליצור מכונות וירטואליות עם כרטיסי GPU מצורפים:
אפשרות הפריסה |
מדריכים לפריסה |
יצירת מכונה וירטואלית להצגת נתונים ולעומסי עבודה של צומת יחיד |
|
יצירת קבוצות של מופעי מכונה מנוהלים (MIG) |
יצירת קבוצת מופעי מכונה מנוהלים (MIG) עם מכונות וירטואליות של GPU |
יצירת מכונות וירטואליות בכמות גדולה |
|
יצירת מכונה וירטואלית אחת |
|
יצירת תחנות עבודה וירטואליות |
Cloud Run
אפשר להגדיר מעבדים גרפיים (GPU) למופעים של Cloud Run. יחידות GPU הן אידיאליות להרצת עומסי עבודה של הסקת מסקנות מ-AI באמצעות מודלים גדולים של שפה ב-Cloud Run.
ב-Cloud Run, אפשר לעיין במקורות המידע הבאים כדי להריץ עומסי עבודה של AI במעבדי GPU:
- הגדרת מעבדים גרפיים לשירות Cloud Run
- טעינת מודלים גדולים של למידת מכונה ב-Cloud Run עם יחידות GPU
- מדריך: הפעלת הסקת מסקנות של LLM במעבדים גרפיים של Cloud Run באמצעות Ollama