🧵 Gdy laboratoria AI ścigają się w skalowaniu RL, jedno pytanie ma znaczenie: kiedy powinieneś przestać z pre-treningiem i zacząć RL?
Przeszkoliliśmy 5 modeli Qwen (0,6B→14B) z RL na GSM8K i odkryliśmy coś szalonego:
Małe modele widzą skoki przypominające EMERGENCE. Duże modele widzą malejące zwroty.
Prawo skalowania? Nie to, czego byś się spodziewał.
więc, @OpenAI robi open source hardware i nie było o tym żadnego hype'u!
zamierzam nad tym pracować całą noc, dzięki @dubssg i @michelleqin_, dziękuję :) Chciałem tylko @Humane, ale OSS, tanio i bez całego tego śmiecia.