🧵 Når AI-laboratorier kappes om å skalere RL, er det ett spørsmål som er viktig: når bør du slutte å fortrene og starte RL?
Vi trente 5 Qwen-modeller (0,6B→14B) med RL på GSM8K og fant noe vilt:
Små modeller ser EMERGENCE-LIKE hopp. Store modeller ser avtagende avkastning.
Skaleringsloven? Ikke det du forventer
Så @OpenAI med åpen kildekode-maskinvare og det var 0 hype om det!
I ferd med å hacke på dette hele natten, takket være @dubssg og @michelleqin_, takk :) Jeg har bare ønsket meg @Humane, men oss, billig og uten alt søppelet.