🧵 När AI-labb tävlar om att skala RL är en fråga viktig: när ska du sluta med förträning och börja med RL? Vi tränade 5 Qwen-modeller (0.6B→14B) med RL på GSM8K och hittade något galet: Små modeller ser EMERGENCE-LIKE hopp. Stora modeller ser avtagande avkastning. Skalningslagen? Inte vad du förväntar dig