Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

מאמרי העזרה בנושא תזמור של AI/ML ב-Cloud Run

‫Cloud Run היא פלטפורמה מנוהלת שמאפשרת להריץ אפליקציות בקונטיינרים, כולל עומסי עבודה של AI/ML, ישירות בתשתית הניתנת להתאמה של Google. הוא מטפל בתשתית בשבילכם, כך שאתם יכולים להתמקד בכתיבת הקוד במקום לבזבז זמן על הפעלה, הגדרה ושינוי של גודל המשאבים של Cloud Run. היכולות של Cloud Run מאפשרות לכם:

האצת חומרה: גישה ליחידות GPU וניהול שלהן להסקת מסקנות בהיקף גדול.
תמיכה במסגרות: שילוב עם מסגרות להפעלת מודלים שאתם כבר מכירים וסומכים עליהן, כמו Hugging Face, ‏ TGI ו-vLLM.
פלטפורמה מנוהלת: אתם מקבלים את כל היתרונות של פלטפורמה מנוהלת כדי לבצע אוטומציה, להרחיב ולשפר את האבטחה של כל מחזור החיים של ה-AI/ML, תוך שמירה על גמישות.

כדאי לעיין במדריכים ובשיטות המומלצות שלנו כדי להבין איך Cloud Run יכול לעזור לכם לבצע אופטימיזציה של עומסי העבודה שלכם בתחום ה-AI/ML.

רוצים להתחיל להשתמש בחינם?

מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$

פיתוח באמצעות המודלים והכלים הכי עדכניים של AI גנרטיבי
שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
בלי חיובים אוטומטיים ובלי התחייבות

צפייה במבצעים למוצרים בחינם

מוזמנים להתנסות ביותר מ-20 מוצרים חינמיים

אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.

מאמרי עזרה

כאן תוכלו למצוא מדריכים למתחילים ומדריכים נוספים, לעיין בחומרי עזר חשובים ולקבל עזרה לפתרון בעיות נפוצות.

הפעלת פתרונות AI

Concept
תרחישים לדוגמה לשימוש ב-AI
Concept
Host AI agents
How-to
אירוח סוכני A2A
How-to
פריסת סוכני A2A
How-to
Host MCP servers
מדריך
פיתוח ופריסה של שרת MCP מרוחק
Concept
הרצת קוד
Concept
אוטומציה של דפדפנים ומערכות הפעלה
מדריך
מדריך למתחילים: איך יוצרים ומפעילים אפליקציית אינטרנט ב-Python‏ (LangChain)
מדריך
מדריך למתחילים: איך יוצרים ומפעילים אפליקציית אינטרנט ב-Python ‏ (smolagents)

הסקת מסקנות באמצעות מעבדי GPU

מדריך
הפעלת היקש של LLM ביחידות GPU באמצעות 3 ו-Ollama
How-to
מריצים 3 מודלים ב
מדריך
הפעלת היקש של LLM ביחידות GPU באמצעות Hugging Face
שיטה מומלצת
שיטות מומלצות: שירותים עם יחידות GPU
מדריך
שיפור המודלים הגדולים של שפה (LLM) באמצעות מעבדי GPU עם משימות
מדריך
GPU-accelerated video transcoding with FFmpeg on jobs
שיטה מומלצת
שיטות מומלצות: משימות עם מעבדים גרפיים (GPU)
שיטה מומלצת
שיטות מומלצות: מאגרי עובדים עם יחידות GPU

פתרון בעיות

כדי להבין איך משתמשים בפועל בשירותי Google Cloud ומחברים ביניהם, אתם יכולים להיעזר בהדרכות בקצב אישי, בתרחישי שימוש, בארכיטקטורות לדוגמה ובדוגמאות קודים.

תרחיש שימוש

מדריך להפעלת AI במצב התנעה קרה ב-

אופטימיזציה של זמן האחזור של הפעלה קרה להסקת מסקנות של מודלים גדולים של שפה (LLM) ב באמצעות הגדרות של תצורה ללא שרתים (serverless) וכוונון של תבנית עיצוב ארכיטקטורה.

הפעלה מההתחלה (cold startup) זמן אחזור אופטימיזציה מודלים גדולים של שפה (LLM)

תרחיש שימוש

אבטחת סוכני AI באמצעות הרשאה של MCP

הגדרת כללי הרשאה של Model Context Protocol‏ (MCP) ואכיפה שלהם כדי לאבטח את הקישוריות של כלים מרוחקים לסוכני AI שנפרסו ב- .

Security MCP Agents

תרחיש שימוש

‫AI Studio מאפשר תכנות בשיטת Vibe code עם , Firebase ו- , בלי צורך בכרטיס אשראי

אפשר לפרוס אפליקציות full-stack ב- ישירות ממצב Build ב-Google AI Studio עם תמיכה משולבת ב-Firebase וב- גיבוי.

‫AI Studio Firebase תכנות בשיטת Vibe coding

תרחיש שימוש

הפעלת אפליקציות של הסקת מסקנות מ-AI ב- עם יחידות GPU של NVIDIA

אפשר להשתמש ביחידות GPU מסוג NVIDIA L4 ב- להיקש AI בזמן אמת, כולל יתרונות של הפעלה מהירה (cold-start) וצמצום הפעולה לאפס (scale-to-zero) למודלים גדולים של שפה (LLM).

GPUs LLMs

תרחיש שימוש

‫ : הדרך הכי מהירה להעביר את אפליקציות ה-AI שלכם לייצור

איך משתמשים ב- ביישומי AI שמוכנים לייצור. במדריך הזה מתוארים תרחישי שימוש כמו פיצול תנועה לבדיקות A/B של הנחיות, דפוסי RAG (יצירה משולבת-אחזור) וקישור למאגרי וקטורים.

אפליקציות AI פיצול תנועה לבדיקות A/B דפוסי RAG מאגרי וקטורים קישוריות למאגרי וקטורים

תרחיש שימוש

פריסת AI פשוטה: אפשר לפרוס את האפליקציה מ-AI Studio או מסוכני AI שתואמים ל-MCP

פריסה בלחיצה אחת מ-Google AI Studio אל ואל שרת MCP (Model Context Protocol) כדי להפעיל סוכני AI בסביבות פיתוח משולבות (IDE) או בערכות SDK של סוכנים ולפרוס אפליקציות.

שרתי MCP פריסות

תרחיש שימוש

שיפור הביצועים באמצעות כוח העיבוד של GPU: עידן חדש לעומסי עבודה של AI

שילוב של יחידות GPU מסוג NVIDIA L4 עם לשירות חסכוני של מודלי שפה גדולים (LLM). במדריך הזה אנחנו מתמקדים בצמצום הפעולה לאפס, ומספקים שלבי פריסה למודלים כמו 2 עם Ollama.

LLMs GPU Ollama Cost Optimization

תרחיש שימוש

עדיין אורזים מודלים של AI במכולות? במקום זאת, עושים את הפעולות הבאות ב

אפשר להפריד קובצי מודלים גדולים מקובץ אימג' של קונטיינר באמצעות . הפרדה בין הרכיבים משפרת את זמני הבנייה, מפשטת את העדכונים ויוצרת ארכיטקטורה ניתנת להרחבה יותר להצגת מודעות.

אריזת מודלים שיטות מומלצות מודלים גדולים

תרחיש שימוש

אריזה ופריסה של מודלים של למידת מכונה ב- באמצעות Cog

כדי לפשט את האריזה והפריסה של קונטיינרים ב- , אפשר להשתמש במסגרת Cog שעברה אופטימיזציה להצגת מודלים של למידת מכונה.

סמל גלגל השיניים Model Packaging Deployment Tutorial

תרחיש שימוש

פריסה ומעקב אחרי מודלים של למידת מכונה באמצעות — קל משקל, ניתן להרחבה וחסכוני

אפשר להשתמש ב- לביצוע מסקנות ML קלות משקל, ולבנות מחסנית ניטור חסכונית באמצעות שירותים מקוריים של כמו ו- .

מעקב MLOps Cost Efficiency Inference

מאמרי העזרה בנושא תזמור של AI/ML ב-Cloud Run

מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$

מוזמנים להתנסות ביותר מ-20 מוצרים חינמיים

הפעלת פתרונות AI

הסקת מסקנות באמצעות מעבדי GPU

פתרון בעיות

סרטונים קשורים