🧵 Terwijl AI-laboratoria racen om RL op te schalen, is er één vraag die telt: wanneer moet je stoppen met pre-training en beginnen met RL? We hebben 5 Qwen-modellen (0,6B→14B) getraind met RL op GSM8K en iets wilds ontdekt: Kleine modellen zien EMERGENCE-ACHTIGE sprongen. Grote modellen zien afnemende rendementen. De opschalingswet? Niet wat je zou verwachten.