热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这是一个很棒的实验!从我收集的一些前沿实验室来看,这并不完全是一个强化学习的缩放法则。很多东西是相似的,但他们建立这些关系的方法似乎有些不同。
首先,他们确实使用了一组基础模型,类似于这个。不过,我不清楚GSM8K与Qwen 3的组合是否是一个好的搭配。对于这些模型来说,这个问题太简单了,可能已经成为预训练或中期训练的目标。
为了缓解这个问题,实验室用来观察缩放的东西是训练问题子集上的验证准确率。这显示了模型从给定数据集中学习的能力。这与预测测试集损失的预训练缩放法则不同。
在我看来,一个大未知是小模型与大模型收敛所需的步骤数。在我个人的许多经验(和讨论)中,似乎大模型实际上需要更少的步骤,所以你分享的图让我有些担忧。
然后,实验室所做的是根据强化学习曲线的初始形状预测最终性能。这在基础设施更优越、长时间运行更稳定的情况下也要容易得多。这看起来更接近传统的预训练缩放法则,在这些法则中,你将每个模型训练到Chinchilla最优令牌的倍数。
这也没有考虑不同超参数的缩放。应用缩放法则的一个重要部分是正确学习如何为模型缩放关键参数。对于预训练,这通常是学习率(LR)、学习率调度和批量大小调整。根据我的经验,强化学习对学习率的敏感性远低于预训练。
热门
排行
收藏