🧵 Während KI-Labore darum wetteifern, RL zu skalieren, stellt sich eine Frage: Wann solltest du mit dem Pre-Training aufhören und mit RL beginnen?
Wir haben 5 Qwen-Modelle (0,6B→14B) mit RL auf GSM8K trainiert und etwas Wildes entdeckt:
Kleine Modelle zeigen EMERGENZ-ÄHNLICHE Sprünge. Große Modelle zeigen abnehmende Erträge.
Das Skalierungsgesetz? Nicht das, was du erwarten würdest.
Also, @OpenAI macht Open-Source-Hardware und es gab 0 Hype darüber!
Ich werde die ganze Nacht daran hacken, dank @dubssg und @michelleqin_, danke :) Ich wollte schon immer @Humane, aber OSS, günstig und ohne den ganzen Müll.