熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🧵 隨著 AI 實驗室競相擴展強化學習(RL),有一個問題至關重要:你應該在什麼時候停止預訓練並開始強化學習?
我們在 GSM8K 上訓練了 5 個 Qwen 模型(0.6B→14B)並發現了一些驚人的事情:
小型模型出現類似於 EMERGENCE 的跳躍。大型模型則看到收益遞減。
擴展法則?並不是你所期望的那樣。

熱門
排行
收藏