מאמרי העזרה בנושא תזמור של AI/ML ב-Cloud Run

‫Cloud Run היא פלטפורמה מנוהלת שמאפשרת להריץ אפליקציות בקונטיינרים, כולל עומסי עבודה של AI/ML, ישירות בתשתית הניתנת להתאמה של Google. הוא מטפל בתשתית בשבילכם, כך שאתם יכולים להתמקד בכתיבת הקוד במקום לבזבז זמן על הפעלה, הגדרה ושינוי של גודל המשאבים של Cloud Run. היכולות של Cloud Run מאפשרות לכם:

  • האצת חומרה: גישה ליחידות GPU וניהול שלהן להסקת מסקנות בהיקף גדול.
  • תמיכה במסגרות: שילוב עם מסגרות להפעלת מודלים שאתם כבר מכירים וסומכים עליהן, כמו Hugging Face, ‏ TGI ו-vLLM.
  • פלטפורמה מנוהלת: אתם מקבלים את כל היתרונות של פלטפורמה מנוהלת כדי לבצע אוטומציה, להרחיב ולשפר את האבטחה של כל מחזור החיים של ה-AI/ML, תוך שמירה על גמישות.

כדאי לעיין במדריכים ובשיטות המומלצות שלנו כדי להבין איך Cloud Run יכול לעזור לכם לבצע אופטימיזציה של עומסי העבודה שלכם בתחום ה-AI/ML.

  • פיתוח באמצעות המודלים והכלים הכי עדכניים של AI גנרטיבי
  • שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
  • בלי חיובים אוטומטיים ובלי התחייבות

מוזמנים להתנסות ביותר מ-20 מוצרים חינמיים

אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.

מאמרי עזרה

כאן תוכלו למצוא מדריכים למתחילים ומדריכים נוספים, לעיין בחומרי עזר חשובים ולקבל עזרה לפתרון בעיות נפוצות.
כדי להבין איך משתמשים בפועל בשירותי Google Cloud ומחברים ביניהם, אתם יכולים להיעזר בהדרכות בקצב אישי, בתרחישי שימוש, בארכיטקטורות לדוגמה ובדוגמאות קודים.
תרחיש שימוש
תרחישים לדוגמה

אופטימיזציה של זמן האחזור של הפעלה קרה להסקת מסקנות של מודלים גדולים של שפה (LLM) ב באמצעות הגדרות של תצורה ללא שרתים (serverless) וכוונון של תבנית עיצוב ארכיטקטורה.

הפעלה מההתחלה (cold startup) זמן אחזור אופטימיזציה מודלים גדולים של שפה (LLM)

תרחיש שימוש
תרחישים לדוגמה

הגדרת כללי הרשאה של Model Context Protocol‏ (MCP) ואכיפה שלהם כדי לאבטח את הקישוריות של כלים מרוחקים לסוכני AI שנפרסו ב- .

Security MCP Agents

תרחיש שימוש
תרחישים לדוגמה

אפשר לפרוס אפליקציות full-stack ב- ישירות ממצב Build ב-Google AI Studio עם תמיכה משולבת ב-Firebase וב- גיבוי.

AI Studio Firebase תכנות בשיטת Vibe coding

תרחיש שימוש
תרחישים לדוגמה

אפשר להשתמש ביחידות GPU מסוג NVIDIA L4 ב- להיקש AI בזמן אמת, כולל יתרונות של הפעלה מהירה (cold-start) וצמצום הפעולה לאפס (scale-to-zero) למודלים גדולים של שפה (LLM).

GPUs LLMs

תרחיש שימוש
תרחישים לדוגמה

איך משתמשים ב- ביישומי AI שמוכנים לייצור. במדריך הזה מתוארים תרחישי שימוש כמו פיצול תנועה לבדיקות A/B של הנחיות, דפוסי RAG (יצירה משולבת-אחזור) וקישור למאגרי וקטורים.

אפליקציות AI פיצול תנועה לבדיקות A/B דפוסי RAG מאגרי וקטורים קישוריות למאגרי וקטורים

תרחיש שימוש
תרחישים לדוגמה

פריסה בלחיצה אחת מ-Google AI Studio אל ואל שרת MCP (Model Context Protocol) כדי להפעיל סוכני AI בסביבות פיתוח משולבות (IDE) או בערכות SDK של סוכנים ולפרוס אפליקציות.

שרתי MCP פריסות

תרחיש שימוש
תרחישים לדוגמה

שילוב של יחידות GPU מסוג NVIDIA L4 עם לשירות חסכוני של מודלי שפה גדולים (LLM). במדריך הזה אנחנו מתמקדים בצמצום הפעולה לאפס, ומספקים שלבי פריסה למודלים כמו 2 עם Ollama.

LLMs GPU Ollama Cost Optimization

תרחיש שימוש
תרחישים לדוגמה

אפשר להפריד קובצי מודלים גדולים מקובץ אימג' של קונטיינר באמצעות . הפרדה בין הרכיבים משפרת את זמני הבנייה, מפשטת את העדכונים ויוצרת ארכיטקטורה ניתנת להרחבה יותר להצגת מודעות.

אריזת מודלים שיטות מומלצות מודלים גדולים

תרחיש שימוש
תרחישים לדוגמה

כדי לפשט את האריזה והפריסה של קונטיינרים ב- , אפשר להשתמש במסגרת Cog שעברה אופטימיזציה להצגת מודלים של למידת מכונה.

סמל גלגל השיניים Model Packaging Deployment Tutorial

תרחיש שימוש
תרחישים לדוגמה

אפשר להשתמש ב- לביצוע מסקנות ML קלות משקל, ולבנות מחסנית ניטור חסכונית באמצעות שירותים מקוריים של כמו ו- .

מעקב MLOps Cost Efficiency Inference

סרטונים קשורים