🧵 När AI-labb tävlar om att skala RL är en fråga viktig: när ska du sluta med förträning och börja med RL?
Vi tränade 5 Qwen-modeller (0.6B→14B) med RL på GSM8K och hittade något galet:
Små modeller ser EMERGENCE-LIKE hopp. Stora modeller ser avtagande avkastning.
Skalningslagen? Inte vad du förväntar dig
Så, @OpenAI att göra hårdvara med öppen källkod och det var 0 hype om det!
på väg att hacka på detta hela natten, artighet av @dubssg och @michelleqin_, tack :) Jag har bara velat ha @Humane, men oss, billigt och utan allt skräp.