המלצות ל-LoRA ול-QLoRA עבור LLM

בדף הזה מפורטות המלצות להגדרות של כוונון מודלים גדולים של שפה (LLM) ב-Vertex AI באמצעות Low-Rank Adaptation of Large Language Models (LoRA) והגרסה היעילה יותר שלו מבחינת זיכרון,‏ QLoRA.

שיפור ההמלצות

בטבלה הבאה ריכזנו המלצות לשיפור הביצועים של מודלים גדולים של שפה (LLM) באמצעות LoRA או QLoRA:

מפרט מומלץ פרטים
יעילות זיכרון ה-GPU QLoRA השימוש בזיכרון ה-GPU ב-QLoRA קטן בכ-75% בהשוואה ל-LoRA.
מהירות LoRA המהירות של LoRA מהירה ב-66% בערך מזו של QLoRA מבחינת מהירות ההתאמה.
עלות-תועלת LoRA שתי השיטות יחסית זולות, אבל LoRA זולה עד 40% מ-QLoRA.
אורך מקסימלי גבוה יותר של רצף QLoRA ככל שאורך הרצף המקסימלי גבוה יותר, כך צריכת הזיכרון של ה-GPU גדולה יותר. ‫QLoRA משתמש בפחות זיכרון GPU, ולכן הוא יכול לתמוך באורכים מקסימליים גבוהים יותר של רצפים.
שיפור הדיוק זהה שתי השיטות מציעות שיפורים דומים ברמת הדיוק.
גודל אצווה גדול יותר QLoRA ‫QLoRA תומך בגדלים גדולים יותר של קבוצות (batch). לדוגמה, אלה המלצות לגודל אצווה לצורך כוונון של openLLaMA-7B במעבדים הגרפיים הבאים:
  • ‫1 x A100 40G:
    • ‫LoRA: מומלץ להשתמש בגודל קבוצה (batch) של 2.
    • QLoRA: מומלץ להשתמש בגודל קבוצה (batch) של 24.
  • ‫1 x L4:
    • ‫LoRA: גודל אצווה של 1 נכשל עם שגיאת חוסר זיכרון (OOM).
    • QLoRA: מומלץ להגדיר גודל אצווה של 12.
  • 1 x V100:
    • ‫LoRA: גודל אצווה של 1 נכשל עם שגיאת חוסר זיכרון (OOM).
    • QLoRA: מומלץ להשתמש בגודל קבוצה של 8.