הפעלת הסקת מסקנות באצווה באמצעות מעבדי GPU במשימות Cloud Run

אפשר להריץ הסקת מסקנות באצווה באמצעות מודל שפה גדול (LLM) Llama 3.2-1b של Meta ו-vLLM במשימת Cloud Run, ואז לכתוב את התוצאות ישירות ל-Cloud Storage באמצעות טעינת נפח (volume) של Cloud Run.

ב-How to run batch inference on Cloud Run jobs (איך להריץ היקש באצווה במשימות של Cloud Run) מופיע Codelab מפורט.