一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

🧵 随着AI实验室竞相扩展强化学习（RL），一个问题变得重要：你应该在什么时候停止预训练并开始强化学习？我们在GSM8K上训练了5个Qwen模型（0.6B→14B）并发现了一些惊人的事情：小模型看到类似于涌现的跃升。大模型则看到收益递减。扩展法则？并不是你所期望的那样。