סקירה כללית של יצירת מכונה עם מעבדי GPU מצורפים

במאמר הזה מוסבר איך ליצור מכונה ב-Compute Engine עם יחידות לעיבוד גרפי (GPU) שמצורפות אליה. אתם יכולים להשתמש במעבדי GPU כדי להאיץ עומסי עבודה ספציפיים, כמו למידת מכונה ועיבוד נתונים.

אפשר גם להשתמש בכמה סוגים של מכונות GPU ב-AI Hypercomputer. ‫AI Hypercomputer הוא מערכת מחשוב-על שעברה אופטימיזציה כדי לתמוך בעומסי העבודה של בינה מלאכותית (AI) ולמידת מכונה (ML). מומלץ להשתמש באפשרות הזו כדי ליצור תשתית עם הקצאה צפופה ומותאמת לביצועים, שכוללת שילובים של Google Kubernetes Engine ‏ (GKE) ומתזמני Slurm.

מידע נוסף על GPU ב-Compute Engine זמין במאמר בנושא מידע על GPU.

בחירת דגם ה-GPU

רשימת דגמי ה-GPU הזמינים מופיעה במאמר בנושא פלטפורמות GPU. חשוב גם לציין את סוג המכונה שנתמך בדגם ה-GPU שנבחר.

בנוסף, יכול להיות שיהיה לכם שימושי לבדוק את הפרטים הבאים לגבי כל מודל:

מגבלות

בנוסף למגבלות שחלות על כל המכונות עם יחידות GPU, לכל סדרת מכונות עם יחידות GPU מצורפות יש את המגבלות הבאות:

מופעי A4X

מכונות A4

  • אפשר לבקש קיבולת רק באמצעות אפשרויות הצריכה הנתמכות עבור סוג מכונה A4.
  • לא מקבלים הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מכונות וירטואליות מסוג A4.
  • אפשר להשתמש בסוג מכונה A4 רק באזורים ותחומים מסוימים.
  • אי אפשר להשתמש בדיסקים לאחסון מתמיד (persistent disks) (אזוריים או של תחום מוגדר). אפשר להשתמש רק ב-Google Cloud Hyperdisk.
  • סוג המכונה A4 זמין רק בפלטפורמת המעבד Emerald Rapids.
  • אי אפשר לשנות את סוג המכונה של מופע לסוג מכונה A4 או מסוג מכונה A4. צריך ליצור מכונה חדשה עם סוג המכונה הזה.
  • סוגי מכונות A4 לא תומכים בדיירות בלעדית.
  • אי אפשר להריץ מערכות הפעלה של Windows בסוג מכונה A4.
  • במקרים של מופעי A4, כשמשתמשים ב-ethtool -S כדי לעקוב אחרי רשתות GPU, מוני יציאות פיזיות שמסתיימים ב-_phy לא מתעדכנים. זו התנהגות צפויה במקרים שבהם נעשה שימוש בארכיטקטורה של פונקציה וירטואלית (VF) של MRDMA. מידע נוסף זמין במאמר פונקציות MRDMA וכלים לניטור רשת.
  • אי אפשר לצרף דיסקים של Hyperdisk ML שנוצרו לפני 4 בפברואר 2026 לסוגי מכונות A4.

מופעי A3 Ultra

מכונות A3 Mega

מכונות A3 High

מכונות A3 Edge

מכונות A2 Standard

  • אפשר לבקש קיבולת רק באמצעות אפשרויות הצריכה הנתמכות עבור סוג המכונה A2 Standard.
  • לא מקבלים הנחות על שימוש מתמשך והנחות על התחייבות לשימוש גמיש על מופעים שמשתמשים בסוג מכונה A2 Standard.
  • אפשר להשתמש בסוג המכונה A2 Standard רק באזורים מסוימים.
  • סוג המכונה A2 Standard זמין רק בפלטפורמת Cascade Lake.
  • אם המכונה הווירטואלית שלכם היא מסוג A2 Standard, אתם יכולים לעבור רק מסוג אחד של מכונת A2 Standard לסוג אחר של מכונת A2 Standard. אי אפשר לעבור לסוג מכונה אחר. מידע נוסף זמין במאמר בנושא שינוי מופעים שעברו אופטימיזציה לשימוש במאיצים.
  • אי אפשר להשתמש במערכת ההפעלה Windows עם סוג המכונה a2-megagpu-16g. כשמשתמשים במערכת הפעלה של Windows, צריך לבחור סוג מכונה אחר של A2 Standard.
  • אי אפשר לבצע פורמט מהיר של דיסקים לאחסון מתמיד (SSD) מקומיים שמצורפים למכונות וירטואליות של Windows שמשתמשות בסוגי מכונות A2 Standard. כדי לפרמט את כונני ה-SSD המקומיים האלה, צריך לבצע פרמוט מלא באמצעות כלי השירות diskpart ולציין format fs=ntfs label=tmpfs.

‫A2 Ultra instances

  • אפשר לבקש קיבולת רק באמצעות אפשרויות הצריכה הנתמכות של סוג המכונה A2 Ultra.
  • לא מקבלים הנחות על שימוש קבוע והנחות גמישות תמורת התחייבות לשימוש על מקרים לדוגמה שבהם נעשה שימוש בסוג מכונה A2 Ultra.
  • אפשר להשתמש בסוג המכונה A2 Ultra רק באזורים ותחומים מסוימים.
  • סוג המכונה A2 Ultra זמין רק בפלטפורמת Cascade Lake.
  • אם המופע שלכם משתמש בסוג מכונה A2 Ultra, לא תוכלו לשנות את סוג המכונה. אם אתם צריכים להשתמש בסוג מכונה A2 Ultra אחר, או בכל סוג מכונה אחר, עליכם ליצור מופע חדש.
  • אי אפשר לשנות אף סוג מכונה אחר לסוג מכונה A2 Ultra. אם אתם צריכים מופע שמשתמש בסוג מכונה A2 Ultra, אתם צריכים ליצור מופע חדש.
  • אי אפשר לבצע פורמט מהיר של כונני SSD מקומיים שמצורפים למכונות Windows שמשתמשות בסוגי מכונות A2 Ultra. כדי לפרמט את כונני ה-SSD המקומיים האלה, צריך לבצע פרמוט מלא באמצעות כלי השירות diskpart ולציין format fs=ntfs label=tmpfs.

מופעי G4

‫G2 instances

מכונות N1+GPU

מידע על המגבלות של מכונות N1 עם מעבדי GPU זמין במאמרים בנושא תכונות של סדרת מכונות N1 ומעבדי GPU של סדרת מכונות N1.

בחירת מערכת הפעלה

אם אתם משתמשים ב-GPU ללמידת מכונה, אתם יכולים להשתמש באחת ממערכות ההפעלה הבאות:

  • תמונות שעברו אופטימיזציה לעומסי עבודה של AI. אפשר להשתמש בתמונות של Ubuntu ו-Rocky, שזמינות בגרסאות שעברו אופטימיזציה למאיצים עם מנהלי התקנים (דרייברים) של NVIDIA וערכת הכלים CUDA Toolkit שכבר מותקנים. למידע נוסף על תמונות של מערכות הפעלה בתיעוד של AI Hypercomputer.

  • תמונות VM של למידה עמוקה (Deep Learning) לכל מכונה וירטואלית של Deep Learning יש כלי להתקנת דרייבר של GPU, והיא כוללת חבילות כמו TensorFlow ו-PyTorch. אפשר גם להשתמש במכונה וירטואלית של Deep Learning לעומסי עבודה כלליים של GPU. מידע נוסף על התמונות הזמינות ועל חבילות שהותקנו בתמונות האלה זמין במאמר בחירת תמונה במסמכי התיעוד של Deep Learning VM.

אפשר גם להשתמש בתמונה ציבורית או בתמונה בהתאמה אישית. ברוב המקרים של תמונות ציבוריות או תמונות בהתאמה אישית, צריך להתקין את מנהלי ההתקנים של NVIDIA ואת CUDA Toolkit. כדי לזהות אילו דרייברים מתאימים לדגם ה-GPU שלכם, אפשר לעיין במאמר בנושא התקנת דרייברים של GPU.

בדיקת מכסת ה-GPU

כדי להגן על המערכות והמשתמשים ב-Compute Engine, לפרויקטים חדשים יש מכסת GPU גלובלית שמגבילה את המספר הכולל של יחידות GPU שאפשר ליצור בכל אזור נתמך. מידע על מכסת ה-GPU זמין במאמר בנושא מכסת GPU.

אם אתם צריכים מכסה נוספת של GPU, אתם יכולים לבקש הגדלה של המכסה. כשמבקשים מכסת GPU, צריך לבקש מכסה לסוגי ה-GPU שרוצים ליצור בכל אזור, ומכסה גלובלית נוספת למספר הכולל של GPU מכל הסוגים בכל האזורים.

אם לפרויקט שלכם יש היסטוריית חיובים, הוא יקבל מכסה באופן אוטומטי אחרי שתשלחו את הבקשה.

מכונות GPU ומכסות הקצאה זמניות שניתנות להפסקה

בדרך כלל, אי אפשר להשתמש במכסות הקצאה שניתן להפסיק במופעים שמשתמשים במודל הקצאה רגיל. מכסות של מכונות Preemptible VM מיועדות לעומסי עבודה זמניים, ובדרך כלל יש יותר מכסות כאלה. אם בפרויקט שלכם אין מכסה של מכונות וירטואליות שניתנות להפסקת פעולה, ומעולם לא ביקשתם מכסה כזו, כל המכונות הווירטואליות בפרויקט צורכות מכסות הקצאה רגילות.

אם אתם מבקשים מכסת הקצאה שניתנת להפקעה, המקרים שבהם נעשה שימוש במודל ההקצאה הרגיל צריכים לעמוד בכל הקריטריונים הבאים כדי לצרוך מכסת הקצאה שניתנת להפקעה:

כשמשתמשים בהקצאה עם אפשרות קדימה לעומסי עבודה של GPU שמוגבלים בזמן, אפשר ליהנות מזמן ריצה ללא הפרעות ומזמינות גבוהה של מכסת הקצאה עם אפשרות קדימה. מידע נוסף מופיע במאמר בנושא מכסות של מכונות שאפשר להפסיק.

יצירת מכונה עם מעבדי GPU מצורפים

כדי ליצור אינסטנס עם כרטיסי GPU מצורפים, מבצעים את השלבים הבאים:

  1. יוצרים את המופע. השיטה שבה משתמשים כדי ליצור מופע תלויה בעומס העבודה שרוצים להריץ.

    סוגי מכונות עם GPU
    עומסי עבודה של AI ו-ML גרפיקה וויזואליזציה עומסי עבודה אחרים של GPU
    סוגי מכונות מסדרת A שמותאמות למאיצים מיועדות לעומסי עבודה של מחשוב עתיר ביצועים (HPC), בינה מלאכותית (AI) ולמידת מכונה (ML).

    בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.

    סוגי מכונות מסדרת G שעברו אופטימיזציה לשימוש במאיצים מיועדים לעומסי עבודה כמו עומסי עבודה של סימולציה ב-NVIDIA Omniverse, אפליקציות עתירות גרפיקה, טרנסקוד של סרטונים ומחשבים וירטואליים. סוגי המכונות האלה תומכים ב-NVIDIA RTX Virtual Workstations (vWS).

    אפשר להשתמש בסדרת G גם לאימון מודלים קטנים יותר ולהסקת מסקנות במארח יחיד.

    בסוגי המכונות האלה, מודל ה-GPU מצורף באופן אוטומטי למופע.

    בסוגי מכונות למטרות כלליות מסוג N1, למעט N1 ליבת מעבד משותפת (f1-micro ו-g1-small), אפשר לצרף קבוצה נבחרת של מודלים של GPU. חלק מדגמי ה-GPU האלה תומכים גם ב-NVIDIA RTX Virtual Workstations ‏ (vWS).

    עבור עומסי עבודה של AI,‏ ML ו-HPC, בוחרים באחת מהאפשרויות הבאות:

    כדי ליצור מכונת G2 ‏ (L4) או G4 ‏ (RTX PRO 6000), אפשר לעיין במאמר בנושא יצירת מכונת G2 או G4. כדי ליצור מכונת N1 עם מעבדי GPU מצורפים של NVIDIA T4,‏ P4,‏ P100 או V100, אפשר לעיין במאמר בנושא יצירת מכונת N1 עם מעבדי GPU מצורפים.
  2. כדי שהמופע ישתמש ב-GPU, צריך להתקין את הדרייבר של ה-GPU במופע. אם הפעלתם תחנת עבודה וירטואלית של NVIDIA RTX (שנקראה בעבר NVIDIA GRID), צריך להתקין דרייבר לתחנת עבודה וירטואלית.

מה השלב הבא?