הרצת הסקת מסקנות של מודל שפה גדול (LLM) ב-Cloud Run באמצעות Hugging Face TGI

בדוגמה הבאה מוסבר איך להריץ שירות קצה עורפי שמריץ את ערכת הכלים Hugging Face Text Generation Inference (TGI) באמצעות Llama 3. ‫Hugging Face TGI הוא מודל שפה גדול (LLM) בקוד פתוח, שאפשר לפרוס אותו ולהשתמש בו בשירות Cloud Run עם מעבדי GPU מופעלים.

אפשר לראות את הדוגמה המלאה במאמר פריסת Llama 3.1 8B באמצעות TGI DLC ב-Cloud Run.