🧵 Während KI-Labore darum wetteifern, RL zu skalieren, stellt sich eine Frage: Wann solltest du mit dem Pre-Training aufhören und mit RL beginnen? Wir haben 5 Qwen-Modelle (0,6B→14B) mit RL auf GSM8K trainiert und etwas Wildes entdeckt: Kleine Modelle zeigen EMERGENZ-ÄHNLICHE Sprünge. Große Modelle zeigen abnehmende Erträge. Das Skalierungsgesetz? Nicht das, was du erwarten würdest.