🧵 隨著 AI 實驗室競相擴展強化學習(RL),有一個問題至關重要:你應該在什麼時候停止預訓練並開始強化學習? 我們在 GSM8K 上訓練了 5 個 Qwen 模型(0.6B→14B)並發現了一些驚人的事情: 小型模型出現類似於 EMERGENCE 的跳躍。大型模型則看到收益遞減。 擴展法則?並不是你所期望的那樣。