מאמרי עזרה בנושא תזמור של AI/ML ב-Cloud Run

‫Cloud Run היא פלטפורמה מנוהלת שמאפשרת להריץ אפליקציות בקונטיינרים, כולל עומסי עבודה של AI/ML, ישירות בתשתית הניתנת להתאמה לעומס של Google. השירות מטפל בתשתית בשבילכם, כך שאתם יכולים להתמקד בכתיבת הקוד במקום להשקיע זמן בהפעלה, בהגדרה ובשינוי של קנה המידה של משאבי Cloud Run. היכולות של Cloud Run מאפשרות לכם:

  • האצת חומרה: גישה ליחידות GPU וניהול שלהן להסקת מסקנות בהיקף גדול.
  • תמיכה במסגרות: שילוב עם מסגרות לפרסום המודל שאתם כבר מכירים וסומכים עליהן, כמו Hugging Face, ‏ TGI ו-vLLM.
  • פלטפורמה מנוהלת: אתם יכולים ליהנות מכל היתרונות של פלטפורמה מנוהלת כדי לבצע אוטומציה, להרחיב ולשפר את האבטחה של כל מחזור החיים של ה-AI/ML, תוך שמירה על גמישות.

כדאי לעיין במדריכים ובשיטות המומלצות שלנו כדי לראות איך Cloud Run יכול לבצע אופטימיזציה של עומסי העבודה של AI/ML.

  • פיתוח באמצעות המודלים והכלים הכי עדכניים שלנו ל-AI גנרטיבי
  • שימוש בחינם ביותר מ-20 מוצרים פופולריים, כולל Compute Engine וממשקי API של AI
  • בלי חיובים אוטומטיים ובלי התחייבות

מתנסים ביותר מ-20 מוצרים שבחינם תמיד

אתם יכולים להשתמש ביותר מ-20 מוצרים בחינם לתרחישי שימוש נפוצים, כולל ממשקי API של AI, מכונות וירטואליות, מחסני נתונים (data warehouse) ועוד.

משאבי עזרה

כאן תוכלו למצוא מדריכים למתחילים ומדריכים נוספים, לעיין בחומרי עזר חשובים ולקבל עזרה לפתרון בעיות נפוצות.
כדי להבין איך משתמשים בפועל בשירותי Google Cloud ומחברים ביניהם, אתם יכולים להיעזר בהדרכות בקצב אישי, בתרחישי שימוש, בארכיטקטורות לדוגמה ובדוגמאות קודים.
תרחיש שימוש
תרחישים לדוגמה

אפשר להשתמש במעבדים גרפיים (GPU) מסוג NVIDIA L4 ב-Cloud Run להסקת מסקנות מ-AI בזמן אמת, כולל יתרונות של הפעלה מהירה אחרי השבתה (cold-start) וצמצום הפעולה לאפס (scale-to-zero) למודלים גדולים של שפה (LLM).

GPUs LLMs

תרחיש שימוש
תרחישים לדוגמה

איך משתמשים ב-Cloud Run באפליקציות AI שמוכנות לייצור. במדריך הזה מתוארים תרחישי שימוש כמו פיצול תנועה לבדיקות A/B של הנחיות, דפוסי RAG (יצירה משולבת-אחזור) וקישור למאגרי וקטורים.

יישומים של AI פיצול תנועה לבדיקות A/B דפוסי RAG מאגרי וקטורים קישוריות למאגרי וקטורים

תרחיש שימוש
תרחישים לדוגמה

פריסה בלחיצה אחת מ-Google AI Studio ל-Cloud Run ולשרת Cloud Run MCP (Model Context Protocol) כדי להפעיל סוכני AI בסביבות פיתוח משולבות (IDE) או בערכות SDK של סוכנים ולפרוס אפליקציות.

שרתי MCP פריסות Cloud Run

תרחיש שימוש
תרחישים לדוגמה

שילוב של מעבדים גרפיים (GPU) מסוג NVIDIA L4 עם Cloud Run כדי להפעיל מודלים גדולים של שפה (LLM) בצורה חסכונית. במדריך הזה אנחנו מתמקדים בצמצום הפעולה לאפס, ומספקים שלבי פריסה למודלים כמו Gemma 2 עם Ollama.

LLMs GPU Ollama Cost Optimization

תרחיש שימוש
תרחישים לדוגמה

הפרדה של קובצי מודלים גדולים מקובץ האימג' של הקונטיינר באמצעות Cloud Storage FUSE. הפרדה בין הרכיבים משפרת את זמני הפיתוח, מפשטת את העדכונים ויוצרת ארכיטקטורה של שרתים שניתנת להרחבה.

אריזת מודלים Cloud Storage FUSE שיטות מומלצות מודלים גדולים

תרחיש שימוש
תרחישים לדוגמה

כדי לפשט את האריזה והפריסה של קונטיינרים ב-Cloud Run, אפשר להשתמש במסגרת Cog שעברה אופטימיזציה להצגת מודלים של ML.

סמל גלגל השיניים Model Packaging (אריזת מודלים) Deployment (פריסה) Tutorial (מדריך)

תרחיש שימוש
תרחישים לדוגמה

להשתמש ב-Cloud Run להסקת מסקנות קלה של ML, ולבנות חבילת כלים משתלמת למעקב באמצעות שירותים מקוריים של GCP כמו Cloud Logging ו-BigQuery.

מעקב MLOps יעילות עלויות הסקת מסקנות

תרחיש שימוש
תרחישים לדוגמה

פריסת אפליקציית Flask פשוטה שקוראת ל-Vertex AI Generative AI API בשירות Cloud Run ניתן להרחבה.

Generative AI Vertex AI Flask Deployment

תרחיש שימוש
תרחישים לדוגמה

משתמשים בקוד Python של Gemma מ-AI Studio ופורסים אותו ישירות למופע Cloud Run, תוך שימוש ב-Secret Manager לטיפול מאובטח במפתחות API.

AI StudioGemmaDeploymentTutorial

סרטונים קשורים