🧵 Kun tekoälylaboratoriot kilpailevat RL:n skaalaamisesta, yhdellä kysymyksellä on merkitystä: milloin sinun pitäisi lopettaa esikoulutus ja aloittaa RL?
Koulutimme 5 Qwen-mallia (0.6B→14B) RL:llä GSM8K:lla ja löysimme jotain villiä:
Pienet mallit näkevät EMERGENCE-LIKE hyppyjä. Suurten mallien tuotto vähenee.
Skaalauslaki? Ei sitä, mitä odottaisit
Joten @OpenAI avoimen lähdekoodin laitteiston tekeminen ja siitä oli 0 hypeä!
Aion hakkeroida tätä koko yön, kiitos @dubssg ja @michelleqin_, kiitos :) Olen vain halunnut @Humane, mutta oss, halpaa ja ilman kaikkea roskaa.