🧵 AI ラボが RL の拡張を競う中、重要な質問の 1 つは、いつ事前トレーニングを停止して RL を開始するべきかということです。 GSM8KでRLを使用して5つのQwenモデル(0.6B→14B)をトレーニングしたところ、奇妙なことがわかりました。 小さなモデルでは、EMERGENCE-LIKE ジャンプが見られます。大規模なモデルでは収益が逓減します。 スケーリングの法則?あなたが期待するものとは違います