Vertex AI 說明文件不再更新
Vertex AI 的服務現已併入 Gemini Enterprise Agent Platform。如要查看最新資訊,請參閱 Agent Platform 說明文件。
Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
大型語言模型的 LoRA 和 QLoRA 最佳化建議
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
本頁面提供設定建議,說明如何使用大型語言模型低秩適應 (LoRA) 和更節省記憶體的 QLoRA,在 Vertex AI 上微調大型語言模型 (LLM)。
調整推薦內容
下表彙整了使用 LoRA 或 QLoRA 微調 LLM 的建議:
| 規格 |
建議 |
詳細資料 |
| GPU 記憶體效率 |
QLoRA |
與 LoRA 相比,QLoRA 的尖峰 GPU 記憶體用量減少約 75%。 |
| 速度 |
LoRA |
就微調速度而言,LoRA 比 QLoRA 快約 66%。 |
| 具成本效益 |
LoRA |
這兩種方法都相對便宜,但 LoRA 比 QLoRA 便宜最多 40%。 |
| 更高的序列長度上限 |
QLoRA |
最大序列長度越高,GPU 記憶體用量就越高。QLoRA 使用的 GPU 記憶體較少,因此可支援較高的最大序列長度。 |
| 提升準確度 |
相同 |
這兩種方法都能提升準確度。 |
| 較大的批次大小 |
QLoRA |
QLoRA 支援的批次大小遠高於 LoRA。舉例來說,下列是在這些 GPU 上調整 openLLaMA-7B 時建議使用的批次大小:
- 1 個 A100 40G:
- LoRA:建議批次大小為 2。
- QLoRA:建議批次大小為 24。
- 1 x L4:
- LoRA:批次大小為 1 時,會因記憶體不足 (OOM) 而失敗。
- QLoRA:建議批次大小為 12。
- 1 個 V100:
- LoRA:批次大小為 1 時,會因記憶體不足 (OOM) 而失敗。
- QLoRA:建議批次大小為 8。
|
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2026-05-17 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["難以理解","hardToUnderstand","thumb-down"],["資訊或程式碼範例有誤","incorrectInformationOrSampleCode","thumb-down"],["缺少我需要的資訊/範例","missingTheInformationSamplesINeed","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2026-05-17 (世界標準時間)。"],[],[]]