מאמרי עזרה בנושא תזמור של AI/ML ב-Cloud Run
Cloud Run היא פלטפורמה מנוהלת שמאפשרת להריץ אפליקציות בקונטיינרים, כולל עומסי עבודה של AI/ML, ישירות בתשתית הניתנת להתאמה לעומס של Google. השירות מטפל בתשתית בשבילכם, כך שאתם יכולים להתמקד בכתיבת הקוד במקום להשקיע זמן בהפעלה, בהגדרה ובשינוי של קנה המידה של משאבי Cloud Run. היכולות של Cloud Run מאפשרות לכם:
- האצת חומרה: גישה ליחידות GPU וניהול שלהן להסקת מסקנות בהיקף גדול.
- תמיכה במסגרות: שילוב עם מסגרות לפרסום המודל שאתם כבר מכירים וסומכים עליהן, כמו Hugging Face, TGI ו-vLLM.
- פלטפורמה מנוהלת: אתם יכולים ליהנות מכל היתרונות של פלטפורמה מנוהלת כדי לבצע אוטומציה, להרחיב ולשפר את האבטחה של כל מחזור החיים של ה-AI/ML, תוך שמירה על גמישות.
כדאי לעיין במדריכים ובשיטות המומלצות שלנו כדי לראות איך Cloud Run יכול לבצע אופטימיזציה של עומסי העבודה של AI/ML.
מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$
- פיתוח באמצעות המודלים והכלים הכי עדכניים שלנו ל-AI גנרטיבי
- שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
- בלי חיובים אוטומטיים ובלי התחייבות
מתנסים ביותר מ-20 מוצרים שבחינם תמיד
אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.
משאבי עזרה
הפעלת פתרונות AI
- Concept
- Concept
- הדרכה
- הדרכה
- הדרכה
- מדריך
- Concept
- Concept
הסקת מסקנות באמצעות יחידות GPU
- מדריך
- הדרכה
- מדריך
- שיטה מומלצת
- מדריך
- מדריך
- שיטה מומלצת
- שיטה מומלצת
פתרון בעיות
- Concept
- הדרכה
- הדרכה
- הדרכה
מקורות מידע שקשורים לנושא
הפעלת אפליקציות של הסקת מסקנות מ-AI ב-Cloud Run עם יחידות GPU של NVIDIA
אפשר להשתמש במעבדים גרפיים (GPU) מסוג NVIDIA L4 ב-Cloud Run להסקת מסקנות מ-AI בזמן אמת, כולל יתרונות של הפעלה מהירה אחרי השבתה (cold-start) וצמצום הפעולה לאפס (scale-to-zero) למודלים גדולים של שפה (LLM).
Cloud Run: הדרך המהירה ביותר להעביר אפליקציות AI לסביבת הייצור
איך משתמשים ב-Cloud Run באפליקציות AI שמוכנות לייצור. במדריך הזה מתוארים תרחישי שימוש כמו פיצול תנועה לבדיקות A/B של הנחיות, דפוסי RAG (יצירה משולבת-אחזור) וקישור למאגרי וקטורים.
פריסת AI פשוטה: אפשר לפרוס את האפליקציה ב-Cloud Run מ-AI Studio או מסוכני AI שתואמים ל-MCP
פריסה בלחיצה אחת מ-Google AI Studio ל-Cloud Run ולשרת Cloud Run MCP (Model Context Protocol) כדי להפעיל סוכני AI בסביבות פיתוח משולבות (IDE) או בערכות SDK של סוכנים ולפרוס אפליקציות.
Supercharging Cloud Run with GPU power: A new era for AI workloads
שילוב של מעבדים גרפיים (GPU) מסוג NVIDIA L4 עם Cloud Run כדי להפעיל מודלים גדולים של שפה (LLM) בצורה חסכונית. במדריך הזה אנחנו מתמקדים בצמצום הפעולה לאפס, ומספקים שלבי פריסה למודלים כמו Gemma 2 עם Ollama.
האם אתם עדיין אורזים מודלים של AI במכולות? במקום זאת, מבצעים את הפעולות הבאות ב-Cloud Run
הפרדה של קובצי מודלים גדולים מקובץ האימג' של הקונטיינר באמצעות Cloud Storage FUSE. הפרדה בין הרכיבים משפרת את זמני הפיתוח, מפשטת את העדכונים ויוצרת ארכיטקטורה של שרתים שניתנת להרחבה.
Package and deploy your machine learning models to Google Cloud with Cog
כדי לפשט את האריזה והפריסה של קונטיינרים ב-Cloud Run, אפשר להשתמש במסגרת Cog שעברה אופטימיזציה להצגת מודלים של ML.
פריסה ומעקב אחרי מודלים של למידת מכונה באמצעות Cloud Run – קל משקל, ניתן להרחבה וחסכוני
להשתמש ב-Cloud Run להסקת מסקנות קלה של ML, ולבנות חבילת כלים משתלמת למעקב באמצעות שירותים מקוריים של GCP כמו Cloud Logging ו-BigQuery.
פריסת אפליקציית AI גנרטיבי של Google Cloud באתר באמצעות Cloud Run
פריסת אפליקציית Flask פשוטה שקוראת ל-Vertex AI Generative AI API בשירות Cloud Run ניתן להרחבה.
פריסת Gemma ישירות מ-AI Studio ל-Cloud Run
משתמשים בקוד Python של Gemma מ-AI Studio ופורסים אותו ישירות למופע Cloud Run, תוך שימוש ב-Secret Manager לטיפול מאובטח במפתחות API.