熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
約翰·舒爾曼與思考機器:無悔的LoRA
LoRA用修改過的版本W’=W+γBA替換原始模型中的每個權重矩陣W,其中B和A是矩陣,這兩者的參數總數遠少於W。
當以下情況發生時,LoRA的表現與完全微調相似:
1. LoRA應用於網絡的所有層,特別是包含大多數參數的MLP/MoE層。
2. LoRA不受容量限制,即可訓練的參數數量超過要學習的信息量,這可以根據數據集大小進行估算。
影響:大型(例如萬億參數)基礎模型可以以訓練新模型的少量成本進行定制。

Thinking Machines 發文:
Gemini 關於邊界模型上 LoRA 的計算需求 - 仍然相當可觀,但使用的參數數量少於總模型大小的 1%(預訓練)。

8.68K
熱門
排行
收藏