Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Das ist ein großartiges Experiment! Es ist nicht ganz ein RL-Skalierungsgesetz, im Sinne dessen, was ich von einigen Grenzlabors gesammelt habe. Viele Dinge sind ähnlich, aber ihre Methoden zur Etablierung dieser Beziehungen scheinen ein wenig anders zu sein.
Zuerst verwenden sie definitiv eine Reihe von Basismodellen, die so ähnlich sind. Allerdings ist mir nicht klar, ob die Kombination von GSM8K, insbesondere mit Qwen 3, eine gute Paarung ist. Es ist ein viel zu einfaches Problem für diese Modelle und wahrscheinlich ein Ziel des Pretrainings oder Midtrainings direkt.
Um dies zu mildern, wird das, was verwendet wird, um die Skalierung für Labore zu betrachten, die Validierungsgenauigkeit auf einer Teilmenge der Trainingsprobleme. Dies zeigt die Fähigkeiten der Modelle, aus einem gegebenen Datensatz zu lernen. Dies unterscheidet sich von den Pretraining-Skalierungsgesetzen, die den Verlust des Testsets vorhersagen.
Ein großes Unbekanntes ist meiner Meinung nach, wie viele Schritte es für ein kleines Modell im Vergleich zu einem großen Modell braucht, um zu konvergieren. Aus vielen meiner persönlichen Erfahrungen (und Diskussionen) scheint es am wahrscheinlichsten, dass große Modelle tatsächlich weniger Schritte benötigen, sodass mir das Diagramm, das du geteilt hast, einige Bedenken bereitet.
Dann machen die Labore Vorhersagen über die endgültige Leistung aus der anfänglichen Form der RL-Kurven. Dies ist auch viel einfacher mit überlegener Infrastruktur, die stabiler bei längeren Läufen ist. Dies sieht näher an den traditionellen Pretraining-Skalierungsgesetzen aus, bei denen jedes Modell auf ein Vielfaches der optimalen Chinchilla-Token trainiert wird.
Dies berücksichtigt auch nicht die Skalierung verschiedener Hyperparameter. Ein großer Teil der Anwendung von Skalierungsgesetzen besteht darin, korrekt zu lernen, wie man wichtige Parameter für das Modell skaliert. Beim Pretraining ist dies oft die Lernrate (LR), der LR-Zeitplan und Anpassungen der Batch-Größe. RL war meiner Erfahrung nach viel weniger empfindlich gegenüber der Lernrate als das Pretraining.
Top
Ranking
Favoriten