🧵 Når AI-laboratorier kappes om å skalere RL, er det ett spørsmål som er viktig: når bør du slutte å fortrene og starte RL? Vi trente 5 Qwen-modeller (0,6B→14B) med RL på GSM8K og fant noe vilt: Små modeller ser EMERGENCE-LIKE hopp. Store modeller ser avtagende avkastning. Skaleringsloven? Ikke det du forventer