הסקת מסקנות ב-Cloud TPU

המונח 'הוספה לשירות' מתייחס לתהליך של פריסת מודל מאומן של למידת מכונה בסביבת ייצור, שבה אפשר להשתמש בו להסקת מסקנות. הסקת מסקנות נתמכת ב-TPU v5e ובגרסאות חדשות יותר. הסכמי רמת שירות (SLO) של זמן אחזור הם בעדיפות גבוהה להצגת מודעות.

במאמר הזה מוסבר איך להפעיל מודל ב-TPU של מארח יחיד. פרוסות TPU עם 8 שבבים או פחות כוללות מכונת TPU וירטואלית אחת או מארח אחד, והן נקראות TPUs עם מארח יחיד. מידע על הסקת מסקנות בכמה מארחים זמין במאמר הסקת מסקנות בכמה מארחים באמצעות Pathways.

קדימה, מתחילים

כדי להשתמש ב-Cloud TPU, אתם צריכים חשבון ופרויקט ב- Google Cloud . מידע נוסף זמין במאמר בנושא הגדרת סביבת Cloud TPU.

חשוב לוודא שיש לכם מכסה מספקת למספר ליבות ה-TPU שאתם מתכננים להשתמש בהן להסקת מסקנות. ב-TPU v5e יש מכסות נפרדות לאימון ולשירות. המכסות הספציפיות להרצת מודלים ב-TPU v5e הן:

מקורות מידע על v5e על פי דרישה: TPUv5 lite pod cores for serving per project per zone
משאבים מסוג v5e שניתנים להפסקת פעולה: Preemptible TPU v5 lite pod cores for serving per project per zone

בגרסאות אחרות של TPU, עומסי עבודה של אימון והצגה משתמשים באותה מכסת נפח. מידע נוסף זמין במאמר בנושא מכסות של Cloud TPU.

הצגת מודלים גדולים של שפה (LLM) באמצעות vLLM

‫vLLM היא ספרייה בקוד פתוח שנועדה להסיק מסקנות במהירות ולשרת מודלים גדולים של שפה (LLM). ‫Cloud TPU משתלב עם vLLM באמצעות הפלאגין tpu-inference, שתומך במודלים של JAX ו-PyTorch. מידע נוסף זמין במאגר tpu-inference ב-GitHub.

דוגמאות לשימוש ב-vLLM להפעלת מודל ב-TPU:

יצירת פרופילים

אחרי שמגדירים את ההסקה, אפשר להשתמש בכלי ליצירת פרופילים כדי לנתח את הביצועים ואת השימוש ב-TPU. מידע נוסף על פרופילים זמין במאמרים הבאים: