🧵 Alors que les laboratoires d'IA s'efforcent de développer l'apprentissage par renforcement (RL), une question est cruciale : quand devriez-vous arrêter le pré-entraînement et commencer le RL ? Nous avons entraîné 5 modèles Qwen (0,6B→14B) avec RL sur GSM8K et avons découvert quelque chose de fou : Les petits modèles voient des sauts semblables à une ÉMERGENCE. Les grands modèles voient des rendements décroissants. La loi de mise à l'échelle ? Pas ce à quoi vous vous attendiez.