🧵 Kun tekoälylaboratoriot kilpailevat RL:n skaalaamisesta, yhdellä kysymyksellä on merkitystä: milloin sinun pitäisi lopettaa esikoulutus ja aloittaa RL? Koulutimme 5 Qwen-mallia (0.6B→14B) RL:llä GSM8K:lla ja löysimme jotain villiä: Pienet mallit näkevät EMERGENCE-LIKE hyppyjä. Suurten mallien tuotto vähenee. Skaalauslaki? Ei sitä, mitä odottaisit