Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧵 Mentre i laboratori di AI si affrettano a scalare il RL, una domanda è fondamentale: quando dovresti smettere di pre-addestrare e iniziare il RL?
Abbiamo addestrato 5 modelli Qwen (0.6B→14B) con RL su GSM8K e abbiamo trovato qualcosa di sorprendente:
I modelli piccoli mostrano salti SIMILI ALL'EMERGENZA. I modelli grandi mostrano rendimenti decrescenti.
La legge di scalabilità? Non è quella che ti aspetteresti.

Principali
Ranking
Preferiti