🧵 Alors que les laboratoires d'IA s'efforcent de développer l'apprentissage par renforcement (RL), une question est cruciale : quand devriez-vous arrêter le pré-entraînement et commencer le RL ?
Nous avons entraîné 5 modèles Qwen (0,6B→14B) avec RL sur GSM8K et avons découvert quelque chose de fou :
Les petits modèles voient des sauts semblables à une ÉMERGENCE. Les grands modèles voient des rendements décroissants.
La loi de mise à l'échelle ? Pas ce à quoi vous vous attendiez.
Alors, @OpenAI fait du matériel open source et il n'y a eu aucune hype à ce sujet !
Je suis sur le point de travailler là-dessus toute la nuit, grâce à @dubssg et @michelleqin_, merci :) J'ai juste voulu @Humane, mais oss, pas cher, et sans toutes les bêtises.