כדי לעזור לכם להריץ עומסי עבודה של AI/ML לצורך הוכחת היתכנות (POC), בדף הזה מופיע סקירה כללית של מדריכים בנושא AI Hypercomputer. במדריכים האלה מתואר התהליך המלא של פריסת מודלים נפוצים של AI במוצרי Google Cloud .
המדריכים האלה מיועדים למהנדסי למידת מכונה (ML), לחוקרים, לאדמינים ולמפעילים של פלטפורמות ולמומחים בתחום הנתונים וה-AI. כדי להשתמש במדריכים האלה בצורה יעילה, צריך להכיר את המושגים הבסיסיים של למידת מכונה ולהיות מיומנים בשירותי Google Cloud . גם ניסיון בהטמעה ובניהול של מודלים של AI יעזור לכם להבין את התוכן הזה.
קטגוריות של מדריכים
המדריכים לעומסי עבודה של AI מאורגנים בקטגוריות הבאות:
הרצת היקש עם vLLM ב-GKE
במדריכים האלה מתואר איך לפרוס ולהכניס לשימוש בסביבת הייצור מודלים גדולים של שפה (LLM) להיקש באמצעות ה-framework של vLLM ב-Google Kubernetes Engine (GKE). תלמדו איך להשתמש ביכולות של GKE לניהול קונטיינרים כדי להסיק מסקנות מעומסי עבודה ביעילות. במדריכים האלה מוסבר איך לגשת למודלים באמצעות Hugging Face, איך להגדיר אשכולות GKE (למשל במצב Autopilot), איך לטפל בפרטי כניסה ואיך לפרוס קונטיינרים של vLLM כדי ליצור אינטראקציה עם מודלים של LLM כמו Gemma 3, Llama 4 ו-Qwen3.
הרצת כוונון עדין
במדריכים האלה מוסבר איך לבצע כוונון עדין של מודלים גדולים של שפה (LLM) למשימות ספציפיות בסוגים שונים של אשכולותGoogle Cloud , כולל GKE ו-Slurm. לדוגמה, אפשר לבצע כוונון עדין של Gemma 3 באשכולות GKE מרובי צמתים ומרובי GPU (לדוגמה, באמצעות מכונות וירטואליות A4 עם מעבדי GPU של NVIDIA B200) ובאשכולות Slurm. תצרו תמונות מותאמות אישית של מכונות וירטואליות, תגדירו רשתות RDMA ותריצו משימות של כוונון עדין מבוזר באמצעות ספריות כמו Hugging Face Accelerate ו-FSDP. חלק מההדרכות כוללות גם הסברים על שימוש במסגרות כמו Ray למשימות שקשורות לראייה.
אימון ריצה
במדריכים האלה מוסבר איך לאמן מודלים של שפה גדולה (LLM) או לאמן אותם מראש באשכולות עם ביצועים גבוהים. לדוגמה, תלמדו איך לאמן מראש מודלים כמו Qwen2 באשכולות Slurm מרובי צמתים ומרובי GPU עם מכונות וירטואליות A4. אתם יכולים לפרוס אשכולות Slurm באמצעות Google Cloud Cluster Toolkit, ליצור תמונות של מכונות וירטואליות בהתאמה אישית, להגדיר מופעים משותפים של Filestore, להגדיר רשת RDMA מהירה ולהריץ משימות של אימון מוקדם מבוזר באמצעות Hugging Face Accelerate.
המאמרים הבאים
כדאי לעיין במדריכים בנושא AI Hypercomputer:
- שימוש ב-vLLM ב-GKE כדי להכניס לשימוש בסביבת הייצור היקש של Gemma 3 27B
- כוונון עדין של Gemma 3 באשכול A4 GKE
- אימון של Qwen2 באשכול Slurm מסוג A4
- הצגת Qwen2-72B באמצעות vLLM ב-TPU