בין אם אתם בונים סוכנים, מריצים מודלים של הסקה או משלבים עם שירותי AI שונים, Cloud Run מספק את יכולת ההתאמה, הגמישות והנוחות שדרושים כדי להפוך את החדשנות שלכם בתחום ה-AI למציאות.
בדף הזה מפורטים כמה תרחישים לדוגמה ברמה גבוהה לאירוח, ליצירה ולפריסה של עומסי עבודה של AI ב-Cloud Run.
למה כדאי להשתמש ב-Cloud Run לעומסי עבודה של AI?
ל-Cloud Run יש כמה יתרונות שמאפשרים להבטיח שאפליקציות ה-AI שלכם יהיו ניתנות להרחבה, גמישות וניהול. בין התכונות המרכזיות:
- תמיכה גמישה במאגרי תגים: אפשר לארוז את האפליקציה ואת התלויות שלה במאגר תגים, או להשתמש בכל שפה, ספרייה או מסגרת נתמכת. מידע נוסף על הסכם זמן הריצה של קונטיינרים ב-Cloud Run
- נקודת קצה (endpoint) בפרוטוקול HTTP: אחרי פריסת שירות של Cloud Run, מקבלים נקודת קצה (endpoint) של כתובת URL של Cloud Run מאובטחת ומוכנה לשימוש. שירות Cloud Run מספק סטרימינג באמצעות קידוד העברה של נתונים בחלקים ב-HTTP, HTTP/2 ו-WebSockets.
- שינוי גודל אוטומטי או ידני: כברירת מחדל, Cloud Run משנה את גודל השירות באופן אוטומטי בהתאם לביקוש, גם עד אפס. כך משלמים רק על מה שמשתמשים, ולכן זה אידיאלי לעומסי עבודה בלתי צפויים של AI. אתם יכולים גם להגדיר את השירות שלכם להגדלת נפח אחסון ידנית על סמך התנועה והשימוש במעבד.
תמיכה ב-GPU: אפשר להאיץ את מודלי ה-AI על ידי הגדרת משאבי Cloud Run עם GPU. שירותי Cloud Run עם מעבדי GPU מופעלים יכולים להצטמצם לאפס כדי לחסוך בעלויות כשהם לא בשימוש.
מערכת אקולוגית משולבת: אפשר להתחבר בצורה חלקה לשירותים אחרים של Google Cloud Google, כמו Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB ל-PostgreSQL, Cloud CDN, Secret Manager ודומיינים בהתאמה אישית, כדי ליצור צינורות AI מקיפים מקצה לקצה. בנוסף, Google Cloud Observability מספק כלים מובנים למעקב ולרישום ביומן, כדי להבין את ביצועי האפליקציה ולפתור בעיות ביעילות.
- מוכן לשימוש בארגונים: Cloud Run מציע קישוריות ישירה ל-VPC, אבטחה גרנולרית ואמצעי בקרה ברשת.
תרחישי שימוש עיקריים ב-AI
ריכזנו כאן כמה דרכים לשימוש ב-Cloud Run כדי להפעיל אפליקציות AI:
אירוח של סוכני AI ובוטים
Cloud Run היא פלטפורמה אידיאלית לאירוח של לוגיקת ה-Backend של סוכני AI, צ'אטבוטים ועוזרים וירטואליים. הסוכנים האלה יכולים לתזמן קריאות למודלים של AI כמו Gemini ב-Vertex AI, לנהל את המצב ולבצע אינטגרציה עם מגוון כלים וממשקי API.
- מיקרו-שירותים לסוכנים: פריסת יכולות סוכנים נפרדות כשירותי Cloud Run נפרדים. מידע נוסף זמין במאמר בנושא אירוח סוכני AI.
- תקשורת Agent2Agent (A2A): אפשר לבנות מערכות של סוכנים שפועלים בשיתוף פעולה באמצעות פרוטוקול A2A. מידע נוסף זמין במאמר בנושא אירוח סוכני A2A.
- שרתי Model Context Protocol (MCP): הטמעה של שרתי MCP כדי לספק הקשר סטנדרטי למודלים גדולים של שפה (LLM) מהכלים וממקורות הנתונים שלכם. מידע נוסף זמין במאמר בנושא אירוח שרתי MCP.
הצגת מודלים של AI/ML להסקת מסקנות
פריסת מודלים מאומנים של למידת מכונה כנקודות קצה (endpoints) של HTTP שניתנות להרחבה.
- הסקת מסקנות בזמן אמת: הצגת תחזיות ממודלים שנבנו באמצעות מסגרות כמו TensorFlow, PyTorch, scikit-learn או באמצעות מודלים פתוחים כמו Gemma. דוגמה מופיעה במאמר הרצת Gemma 3 ב-Cloud Run.
- האצת GPU: שימוש במעבדי GPU של NVIDIA כדי להאיץ את ההסקה עבור מודלים תובעניים יותר. מידע נוסף זמין במאמר הגדרת GPU לשירותים.
- שילוב עם Vertex AI: הפעלת מודלים שאומנו או נפרסו ב-Vertex AI, באמצעות Cloud Run כחלק הקצה (frontend) שניתן להרחבה.
- הפרדה של קובצי מודלים גדולים מהקונטיינר: מתאם Cloud Storage FUSE מאפשר לטעון קטגוריה של Cloud Storage ולהפוך אותה לזמינה כספרייה מקומית בתוך קונטיינר Cloud Run.
יצירת מערכות Retrieval-Augmented Generation (יצירה משולבת-אחזור, RAG)
אפשר ליצור אפליקציות RAG על ידי קישור שירותי Cloud Run למקורות הנתונים.
- מסדי נתונים וקטוריים: אפשר להתחבר למסדי נתונים וקטוריים שמארחים ב-Cloud SQL (עם
pgvector), ב-AlloyDB ל-PostgreSQL, ב-Memorystore for Redis או במאגרי וקטורים מיוחדים אחרים כדי לאחזר הקשר רלוונטי למודלים גדולים של שפה (LLM). דוגמה לתשתית שבה נעשה שימוש ב-Cloud Run לאירוח אפליקציית AI גנרטיבי עם יכולות RAG, ועיבוד נתונים באמצעות Vertex AI ו-Vector Search. - גישה לנתונים: שליפת נתונים מ-Cloud Storage, מ-BigQuery, מ-Firestore או מממשקי API אחרים כדי להעשיר את ההנחיות.
אירוח של ממשקי API ושרתי קצה עורפיים מבוססי-AI
פיתוח ממשקי API ומיקרו-שירותים שמשולבות בהם יכולות AI.
- Smart APIs: פיתוח ממשקי API שמשתמשים ב-LLM להבנת שפה טבעית, ניתוח סנטימנט, תרגום, סיכום וכו'.
- תהליכי עבודה אוטומטיים: אפשר ליצור שירותים שמפעילים פעולות מבוססות-AI על סמך אירועים או בקשות.
יצירת אב-טיפוס וניסוי רעיונות
חזרה מהירה על רעיונות ל-AI.
- פריסה מהירה: אפשר להעביר במהירות אבות-טיפוס מסביבות כמו Vertex AI Studio, Google AI Studio או מחברות Jupyter לפריסות ניתנות להרחבה ב-Cloud Run עם מינימום הגדרות.
- פיצול תנועה: אפשר להשתמש בתכונה של פיצול תנועה ב-Cloud Run כדי לבצע בדיקות A/B של מודלים, הנחיות או הגדרות שונים, וב-Google Cloud Observability כדי לעקוב אחרי מדדים (זמן אחזור, שיעור שגיאות, עלות) ולמדוד את ההצלחה של בדיקות A/B.
המאמרים הבאים
בהתאם לרמת ההיכרות שלכם עם מושגי AI ולתרחיש השימוש שלכם ב-AI, תוכלו לעיין במשאבי ה-AI של Cloud Run.