🧵 Mentre i laboratori di AI si affrettano a scalare il RL, una domanda è fondamentale: quando dovresti smettere di pre-addestrare e iniziare il RL?
Abbiamo addestrato 5 modelli Qwen (0.6B→14B) con RL su GSM8K e abbiamo trovato qualcosa di sorprendente:
I modelli piccoli mostrano salti SIMILI ALL'EMERGENZA. I modelli grandi mostrano rendimenti decrescenti.
La legge di scalabilità? Non è quella che ti aspetteresti.
quindi, @OpenAI sta facendo hardware open source e non c'era alcun hype al riguardo!
sto per lavorarci tutta la notte, grazie a @dubssg e @michelleqin_, grazie :) Volevo solo @Humane, ma oss, economico e senza tutta la spazzatura.