מאמרי העזרה בנושא תזמור של AI/ML ב-Cloud Run
Cloud Run היא פלטפורמה מנוהלת שמאפשרת להריץ אפליקציות בקונטיינרים, כולל עומסי עבודה של AI/ML, ישירות בתשתית הניתנת להתאמה של Google. הוא מטפל בתשתית בשבילכם, כך שאתם יכולים להתמקד בכתיבת הקוד במקום לבזבז זמן על הפעלה, הגדרה ושינוי של גודל המשאבים של Cloud Run. היכולות של Cloud Run מאפשרות לכם:
- האצת חומרה: גישה ליחידות GPU וניהול שלהן להסקת מסקנות בהיקף גדול.
- תמיכה במסגרות: שילוב עם מסגרות להפעלת מודלים שאתם כבר מכירים וסומכים עליהן, כמו Hugging Face, TGI ו-vLLM.
- פלטפורמה מנוהלת: אתם מקבלים את כל היתרונות של פלטפורמה מנוהלת כדי לבצע אוטומציה, להרחיב ולשפר את האבטחה של כל מחזור החיים של ה-AI/ML, תוך שמירה על גמישות.
כדאי לעיין במדריכים ובשיטות המומלצות שלנו כדי להבין איך Cloud Run יכול לעזור לכם לבצע אופטימיזציה של עומסי העבודה שלכם בתחום ה-AI/ML.
מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$
- פיתוח באמצעות המודלים והכלים הכי עדכניים של AI גנרטיבי
- שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
- בלי חיובים אוטומטיים ובלי התחייבות
מוזמנים להתנסות ביותר מ-20 מוצרים חינמיים
אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.
מאמרי עזרה
הפעלת פתרונות AI
- Concept
- Concept
- How-to
- How-to
- How-to
- מדריך
- Concept
- Concept
- מדריך
- מדריך
הסקת מסקנות באמצעות מעבדי GPU
- מדריך
- How-to
- מדריך
- שיטה מומלצת
- מדריך
- מדריך
- שיטה מומלצת
- שיטה מומלצת
פתרון בעיות
- Concept
- How-to
- How-to
- How-to
מקורות מידע שקשורים לנושא
מדריך להפעלת AI במצב התנעה קרה ב-
אופטימיזציה של זמן האחזור של הפעלה קרה להסקת מסקנות של מודלים גדולים של שפה (LLM) ב באמצעות הגדרות של תצורה ללא שרתים (serverless) וכוונון של תבנית עיצוב ארכיטקטורה.
אבטחת סוכני AI באמצעות הרשאה של MCP
הגדרת כללי הרשאה של Model Context Protocol (MCP) ואכיפה שלהם כדי לאבטח את הקישוריות של כלים מרוחקים לסוכני AI שנפרסו ב- .
AI Studio מאפשר תכנות בשיטת Vibe code עם , Firebase ו- , בלי צורך בכרטיס אשראי
אפשר לפרוס אפליקציות full-stack ב- ישירות ממצב Build ב-Google AI Studio עם תמיכה משולבת ב-Firebase וב- גיבוי.
הפעלת אפליקציות של הסקת מסקנות מ-AI ב- עם יחידות GPU של NVIDIA
אפשר להשתמש ביחידות GPU מסוג NVIDIA L4 ב- להיקש AI בזמן אמת, כולל יתרונות של הפעלה מהירה (cold-start) וצמצום הפעולה לאפס (scale-to-zero) למודלים גדולים של שפה (LLM).
: הדרך הכי מהירה להעביר את אפליקציות ה-AI שלכם לייצור
איך משתמשים ב- ביישומי AI שמוכנים לייצור. במדריך הזה מתוארים תרחישי שימוש כמו פיצול תנועה לבדיקות A/B של הנחיות, דפוסי RAG (יצירה משולבת-אחזור) וקישור למאגרי וקטורים.
פריסת AI פשוטה: אפשר לפרוס את האפליקציה מ-AI Studio או מסוכני AI שתואמים ל-MCP
פריסה בלחיצה אחת מ-Google AI Studio אל ואל שרת MCP (Model Context Protocol) כדי להפעיל סוכני AI בסביבות פיתוח משולבות (IDE) או בערכות SDK של סוכנים ולפרוס אפליקציות.
שיפור הביצועים באמצעות כוח העיבוד של GPU: עידן חדש לעומסי עבודה של AI
שילוב של יחידות GPU מסוג NVIDIA L4 עם לשירות חסכוני של מודלי שפה גדולים (LLM). במדריך הזה אנחנו מתמקדים בצמצום הפעולה לאפס, ומספקים שלבי פריסה למודלים כמו 2 עם Ollama.
עדיין אורזים מודלים של AI במכולות? במקום זאת, עושים את הפעולות הבאות ב
אפשר להפריד קובצי מודלים גדולים מקובץ אימג' של קונטיינר באמצעות . הפרדה בין הרכיבים משפרת את זמני הבנייה, מפשטת את העדכונים ויוצרת ארכיטקטורה ניתנת להרחבה יותר להצגת מודעות.
אריזה ופריסה של מודלים של למידת מכונה ב- באמצעות Cog
כדי לפשט את האריזה והפריסה של קונטיינרים ב- , אפשר להשתמש במסגרת Cog שעברה אופטימיזציה להצגת מודלים של למידת מכונה.
פריסה ומעקב אחרי מודלים של למידת מכונה באמצעות — קל משקל, ניתן להרחבה וחסכוני
אפשר להשתמש ב- לביצוע מסקנות ML קלות משקל, ולבנות מחסנית ניטור חסכונית באמצעות שירותים מקוריים של כמו ו- .