הרצת הסקת מסקנות של LLM במעבדי GPU ב-Cloud Run באמצעות vLLM

ב-Codelab הבא מוסבר איך להריץ שירות לקצה העורפי שמריץ את vLLM, שהוא מנוע היקש למערכות Production, יחד עם Gemma 2 של Google, שהוא מודל עם 2 מיליארד פרמטרים שעבר כוונון להוראות.

הנה ה-codelab המלא בנושא הרצת הסקה של LLM ב-GPU של Cloud Run באמצעות vLLM.

אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers‏.‏ Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.

עדכון אחרון: 2026-03-10 (שעון UTC).

הרצת הסקת מסקנות של LLM במעבדי GPU ב-Cloud Run באמצעות vLLM קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

הרצת הסקת מסקנות של LLM במעבדי GPU ב-Cloud Run באמצעות vLLM