🧵 Mentre i laboratori di AI si affrettano a scalare il RL, una domanda è fondamentale: quando dovresti smettere di pre-addestrare e iniziare il RL? Abbiamo addestrato 5 modelli Qwen (0.6B→14B) con RL su GSM8K e abbiamo trovato qualcosa di sorprendente: I modelli piccoli mostrano salti SIMILI ALL'EMERGENZA. I modelli grandi mostrano rendimenti decrescenti. La legge di scalabilità? Non è quella che ti aspetteresti.