這是一個很棒的實驗!這不完全是一個強化學習的擴展法則,根據我從幾個前沿實驗室收集到的資料來看。許多事情是相似的,但他們建立這些關係的方法似乎有點不同。 首先,他們確實使用了一組基礎模型,類似於這個。不過,我不清楚GSM8K與Qwen 3的組合是否是一個好的搭配。對於這些模型來說,這個問題太簡單了,可能已經成為預訓練或中期訓練的目標。 為了緩解這一點,實驗室用來觀察擴展的東西是對訓練問題子集的驗證準確率。這顯示了模型從給定數據集學習的能力。這與預訓練擴展法則不同,後者預測測試集損失。 在我看來,一個大未知數是小模型與大模型收斂所需的步驟數。在我許多個人經驗(和討論)中,似乎大模型實際上需要更少的步驟,因此你分享的圖表讓我有些擔憂。 然後,實驗室所做的是根據強化學習曲線的初始形狀預測最終性能。這在基礎設施更穩定、運行時間更長的情況下也要容易得多。這看起來更接近傳統的預訓練擴展法則,您將每個模型訓練到Chinchilla最佳標記的多倍。 這也沒有考慮到不同超參數的擴展。應用擴展法則的一個重要部分是正確學習如何為模型擴展關鍵參數。對於預訓練,這通常是學習率(LR)、LR計劃和批量大小調整。根據我的經驗,強化學習對學習率的敏感性遠低於預訓練。