מאמרי עזרה בנושא תזמור של AI/ML ב-Cloud Run

למאמרי העזרה של המוצר

‫Cloud Run היא פלטפורמה מנוהלת שמאפשרת להריץ אפליקציות בקונטיינרים, כולל עומסי עבודה של AI/ML, ישירות בתשתית הניתנת להתאמה לעומס של Google. השירות מטפל בתשתית בשבילכם, כך שאתם יכולים להתמקד בכתיבת הקוד במקום להשקיע זמן בהפעלה, בהגדרה ובשינוי של קנה המידה של משאבי Cloud Run. היכולות של Cloud Run מאפשרות לכם:

האצת חומרה: גישה ליחידות GPU וניהול שלהן להסקת מסקנות בהיקף גדול.
תמיכה במסגרות: שילוב עם מסגרות לפרסום המודל שאתם כבר מכירים וסומכים עליהן, כמו Hugging Face, ‏ TGI ו-vLLM.
פלטפורמה מנוהלת: אתם יכולים ליהנות מכל היתרונות של פלטפורמה מנוהלת כדי לבצע אוטומציה, להרחיב ולשפר את האבטחה של כל מחזור החיים של ה-AI/ML, תוך שמירה על גמישות.

כדאי לעיין במדריכים ובשיטות המומלצות שלנו כדי לראות איך Cloud Run יכול לבצע אופטימיזציה של עומסי העבודה של AI/ML.

רוצים להתחיל להשתמש בחינם?

מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$

פיתוח באמצעות המודלים והכלים הכי עדכניים שלנו ל-AI גנרטיבי
שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
בלי חיובים אוטומטיים ובלי התחייבות

צפייה במבצעים למוצרים בחינם

מתנסים ביותר מ-20 מוצרים שבחינם תמיד

אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.

משאבי עזרה

כאן תוכלו למצוא מדריכים למתחילים ומדריכים נוספים, לעיין בחומרי עזר חשובים ולקבל עזרה לפתרון בעיות נפוצות.

הפעלת פתרונות AI

הסקת מסקנות באמצעות יחידות GPU

פתרון בעיות

Concept
אסטרטגיות לפתרון בעיות ב-Cloud Run
הדרכה
פתרון בעיות שקשורות ל-Cloud Run
הדרכה
פתרון בעיות באמצעות Gemini Cloud Assist
הדרכה
פתרון בעיות באמצעות Gemini Cloud Assist investigations

כדי להבין איך משתמשים בפועל בשירותי Google Cloud ומחברים ביניהם, אתם יכולים להיעזר בהדרכות בקצב אישי, בתרחישי שימוש, בארכיטקטורות לדוגמה ובדוגמאות קודים.

תרחיש שימוש

הפעלת אפליקציות של הסקת מסקנות מ-AI ב-Cloud Run עם יחידות GPU של NVIDIA

אפשר להשתמש במעבדים גרפיים (GPU) מסוג NVIDIA L4 ב-Cloud Run להסקת מסקנות מ-AI בזמן אמת, כולל יתרונות של הפעלה מהירה אחרי השבתה (cold-start) וצמצום הפעולה לאפס (scale-to-zero) למודלים גדולים של שפה (LLM).

GPUs LLMs

תרחיש שימוש

Cloud Run: הדרך המהירה ביותר להעביר אפליקציות AI לסביבת הייצור

איך משתמשים ב-Cloud Run באפליקציות AI שמוכנות לייצור. במדריך הזה מתוארים תרחישי שימוש כמו פיצול תנועה לבדיקות A/B של הנחיות, דפוסי RAG (יצירה משולבת-אחזור) וקישור למאגרי וקטורים.

יישומים של AI פיצול תנועה לבדיקות A/B דפוסי RAG מאגרי וקטורים קישוריות למאגרי וקטורים

תרחיש שימוש

פריסת AI פשוטה: אפשר לפרוס את האפליקציה ב-Cloud Run מ-AI Studio או מסוכני AI שתואמים ל-MCP

פריסה בלחיצה אחת מ-Google AI Studio ל-Cloud Run ולשרת Cloud Run MCP (Model Context Protocol) כדי להפעיל סוכני AI בסביבות פיתוח משולבות (IDE) או בערכות SDK של סוכנים ולפרוס אפליקציות.

שרתי MCP פריסות Cloud Run

תרחיש שימוש

Supercharging Cloud Run with GPU power: A new era for AI workloads

שילוב של מעבדים גרפיים (GPU) מסוג NVIDIA L4 עם Cloud Run כדי להפעיל מודלים גדולים של שפה (LLM) בצורה חסכונית. במדריך הזה אנחנו מתמקדים בצמצום הפעולה לאפס, ומספקים שלבי פריסה למודלים כמו Gemma 2 עם Ollama.

LLMs GPU Ollama Cost Optimization

תרחיש שימוש

האם אתם עדיין אורזים מודלים של AI במכולות? במקום זאת, מבצעים את הפעולות הבאות ב-Cloud Run

הפרדה של קובצי מודלים גדולים מקובץ האימג' של הקונטיינר באמצעות Cloud Storage FUSE. הפרדה בין הרכיבים משפרת את זמני הפיתוח, מפשטת את העדכונים ויוצרת ארכיטקטורה של שרתים שניתנת להרחבה.

אריזת מודלים Cloud Storage FUSE שיטות מומלצות מודלים גדולים

תרחיש שימוש

Package and deploy your machine learning models to Google Cloud with Cog

כדי לפשט את האריזה והפריסה של קונטיינרים ב-Cloud Run, אפשר להשתמש במסגרת Cog שעברה אופטימיזציה להצגת מודלים של ML.

סמל גלגל השיניים Model Packaging (אריזת מודלים) Deployment (פריסה) Tutorial (מדריך)

תרחיש שימוש

פריסה ומעקב אחרי מודלים של למידת מכונה באמצעות Cloud Run – קל משקל, ניתן להרחבה וחסכוני

להשתמש ב-Cloud Run להסקת מסקנות קלה של ML, ולבנות חבילת כלים משתלמת למעקב באמצעות שירותים מקוריים של GCP כמו Cloud Logging ו-BigQuery.

מעקב MLOps יעילות עלויות הסקת מסקנות

תרחיש שימוש

פריסת אפליקציית AI גנרטיבי של Google Cloud באתר באמצעות Cloud Run

פריסת אפליקציית Flask פשוטה שקוראת ל-Vertex AI Generative AI API בשירות Cloud Run ניתן להרחבה.

Generative AI Vertex AI Flask Deployment

תרחיש שימוש

פריסת Gemma ישירות מ-AI Studio ל-Cloud Run

משתמשים בקוד Python של Gemma מ-AI Studio ופורסים אותו ישירות למופע Cloud Run, תוך שימוש ב-Secret Manager לטיפול מאובטח במפתחות API.

‫AI Studio ‫Gemma ‫Deployment ‫Tutorial

מאמרי עזרה בנושא תזמור של AI/ML ב-Cloud Run

מתחילים לעבוד על הוכחת ההיתכנות בחינם עם קרדיט בשווי 300$

מתנסים ביותר מ-20 מוצרים שבחינם תמיד

הפעלת פתרונות AI

הסקת מסקנות באמצעות יחידות GPU

פתרון בעיות

סרטונים קשורים