看到字節跳動致力於解決0梯度問題真是有趣。他們的想法是通過自適應計算預算來解決這個問題;我們則從獎勵的角度來看待它。GRPO訓練通常使用小型、精心策劃的數據集,數據需要非常困難,以提供豐富的學習信號並促進發現。使用較簡單的數據進行訓練只會加強模型在SFT/預訓練中已經看到的內容!