🧵 随着AI实验室竞相扩展强化学习(RL),一个问题变得重要:你应该在什么时候停止预训练并开始强化学习? 我们在GSM8K上训练了5个Qwen模型(0.6B→14B)并发现了一些惊人的事情: 小模型看到类似于涌现的跃升。大模型则看到收益递减。 扩展法则?并不是你所期望的那样。