הרצת הסקת מסקנות של LLM במעבדי GPU ב-Cloud Run באמצעות vLLM

ב-Codelab הבא מוסבר איך להריץ שירות לקצה העורפי שמריץ את vLLM, שהוא מנוע היקש למערכות Production, יחד עם Gemma 2 של Google, שהוא מודל עם 2 מיליארד פרמטרים שעבר כוונון להוראות.

הנה ה-codelab המלא בנושא הרצת הסקה של LLM ב-GPU של Cloud Run באמצעות vLLM.