🧵 Gdy laboratoria AI ścigają się w skalowaniu RL, jedno pytanie ma znaczenie: kiedy powinieneś przestać z pre-treningiem i zacząć RL? Przeszkoliliśmy 5 modeli Qwen (0,6B→14B) z RL na GSM8K i odkryliśmy coś szalonego: Małe modele widzą skoki przypominające EMERGENCE. Duże modele widzą malejące zwroty. Prawo skalowania? Nie to, czego byś się spodziewał.