これは素晴らしい実験です!これは、私がいくつかのフロンティア研究所から収集したものという意味では、RLスケーリングの法則ではありません。多くのことが似ていますが、これらの関係を確立する方法は少し異なるようです。 まず、彼らは間違いなくこのような基本モデルのセットを使用しています。ただし、GSM8K、特にQwen 3の組み合わせが良い組み合わせであるかどうかは私にはわかりません。これらのモデルにとってはあまりにも簡単な問題であり、直接事前学習または中間学習の対象となった可能性があります。 これを軽減するために、ラボのスケーリングを調べるために使用されるのは、トレーニング問題のサブセットの検証精度です。これは、特定のデータセットから学習するモデルの能力を示しています。これは、テストセットの損失を予測する事前学習スケーリングの法則とは異なります。 私の意見では、大きな未知数は、小さなモデルと大きなモデルが収束するのに何ステップかかるかということです。私の個人的な経験(および議論)の多くを通じて、ビッグモデルは実際にはより少ないステップを必要とする可能性が最も高いように思われるので、あなたが共有したプロットは私にいくつかの懸念を与えます。 次に、ラボが行うことは、RL曲線の初期形状から最終的なパフォーマンスを予測することです。これは、長期実行でより安定した優れたインフラストラクチャがあれば、はるかに簡単です。これは、各モデルをチンチラの最適トークンの倍数にトレーニングする従来の事前トレーニングスケーリング法則に近いように見えます。 これは、さまざまなハイパーパラメータのスケーリングも考慮していません。スケーリング法則を適用する上で大きな部分は、モデルの主要なパラメーターをスケーリングする方法を正しく学習することです。事前トレーニングでは、多くの場合、学習率 (LR)、LR スケジュール、およびバッチ サイズの調整です。私の経験では、RLは事前トレーニングよりも学習率に対する感度がはるかに低くなっています。