看到字节跳动致力于解决0梯度问题真是有趣。他们的想法是通过自适应计算预算来解决这个问题;而我们则从奖励的角度来处理。GRPO训练通常使用小而精心策划的数据集,这些数据需要非常困难,以提供丰富的学习信号并促进发现。在更简单的数据上训练只会加深模型在SFT/预训练中已经看到的内容!