大型語言模型的 LoRA 和 QLoRA 最佳化建議

本頁面提供設定建議，說明如何使用大型語言模型低秩適應 (LoRA) 和更節省記憶體的 QLoRA，在 Vertex AI 上微調大型語言模型 (LLM)。

調整推薦內容

下表彙整了使用 LoRA 或 QLoRA 微調 LLM 的建議：

規格	建議	詳細資料
GPU 記憶體效率	QLoRA	與 LoRA 相比，QLoRA 的尖峰 GPU 記憶體用量減少約 75%。
速度	LoRA	就微調速度而言，LoRA 比 QLoRA 快約 66%。
具成本效益	LoRA	這兩種方法都相對便宜，但 LoRA 比 QLoRA 便宜最多 40%。
更高的序列長度上限	QLoRA	最大序列長度越高，GPU 記憶體用量就越高。QLoRA 使用的 GPU 記憶體較少，因此可支援較高的最大序列長度。
提升準確度	相同	這兩種方法都能提升準確度。
較大的批次大小	QLoRA	QLoRA 支援的批次大小遠高於 LoRA。舉例來說，下列是在這些 GPU 上調整 openLLaMA-7B 時建議使用的批次大小： 1 個 A100 40G： LoRA：建議批次大小為 2。 QLoRA：建議批次大小為 24。 1 x L4： LoRA：批次大小為 1 時，會因記憶體不足 (OOM) 而失敗。 QLoRA：建議批次大小為 12。 1 個 V100： LoRA：批次大小為 1 時，會因記憶體不足 (OOM) 而失敗。 QLoRA：建議批次大小為 8。