בטבלה הבאה ריכזנו המלצות לשיפור הביצועים של מודלים גדולים של שפה (LLM) באמצעות LoRA או QLoRA:
מפרט
מומלץ
פרטים
יעילות זיכרון ה-GPU
QLoRA
השימוש בזיכרון ה-GPU ב-QLoRA קטן בכ-75% בהשוואה ל-LoRA.
מהירות
LoRA
המהירות של LoRA מהירה ב-66% בערך מזו של QLoRA מבחינת מהירות ההתאמה.
עלות-תועלת
LoRA
שתי השיטות יחסית זולות, אבל LoRA זולה עד 40% מ-QLoRA.
אורך מקסימלי גבוה יותר של רצף
QLoRA
ככל שאורך הרצף המקסימלי גבוה יותר, כך צריכת הזיכרון של ה-GPU גדולה יותר. QLoRA משתמש בפחות זיכרון GPU, ולכן הוא יכול לתמוך באורכים מקסימליים גבוהים יותר של רצפים.
שיפור הדיוק
זהה
שתי השיטות מציעות שיפורים דומים ברמת הדיוק.
גודל אצווה גדול יותר
QLoRA
QLoRA תומך בגדלים גדולים יותר של קבוצות (batch). לדוגמה, אלה המלצות לגודל אצווה לצורך כוונון של openLLaMA-7B במעבדים הגרפיים הבאים:
1 x A100 40G:
LoRA: מומלץ להשתמש בגודל קבוצה (batch) של 2.
QLoRA: מומלץ להשתמש בגודל קבוצה (batch) של 24.
1 x L4:
LoRA: גודל אצווה של 1 נכשל עם שגיאת חוסר זיכרון (OOM).
QLoRA: מומלץ להגדיר גודל אצווה של 12.
1 x V100:
LoRA: גודל אצווה של 1 נכשל עם שגיאת חוסר זיכרון (OOM).
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["התוכן קשה להבנה","hardToUnderstand","thumb-down"],["שגיאות בקוד לדוגמה או במידע","incorrectInformationOrSampleCode","thumb-down"],["חסרים לי פרטים או דוגמאות","missingTheInformationSamplesINeed","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2026-03-10 (שעון UTC)."],[],[]]