Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧵 Alors que les laboratoires d'IA s'efforcent de développer l'apprentissage par renforcement (RL), une question est cruciale : quand devriez-vous arrêter le pré-entraînement et commencer le RL ?
Nous avons entraîné 5 modèles Qwen (0,6B→14B) avec RL sur GSM8K et avons découvert quelque chose de fou :
Les petits modèles voient des sauts semblables à une ÉMERGENCE. Les grands modèles voient des rendements décroissants.
La loi de mise à l'échelle ? Pas ce à quoi vous vous attendiez.

Meilleurs
Classement
Favoris