一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🧵 隨著 AI 實驗室競相擴展強化學習（RL），有一個問題至關重要：你應該在什麼時候停止預訓練並開始強化學習？我們在 GSM8K 上訓練了 5 個 Qwen 模型（0.6B→14B）並發現了一些驚人的事情：小型模型出現類似於 EMERGENCE 的跳躍。大型模型則看到收益遞減。擴展法則？並不是你所期望的那樣。