C'est une grande expérience ! Ce n'est pas tout à fait une loi de mise à l'échelle RL, dans le sens de ce que j'ai collecté de quelques laboratoires de pointe. Beaucoup de choses sont similaires, mais leurs méthodes pour établir ces relations semblent un peu différentes. Tout d'abord, ils utilisent définitivement un ensemble de modèles de base un peu comme ça. Cependant, il n'est pas clair pour moi si la combinaison de GSM8K, en particulier avec Qwen 3, est un bon appariement. C'est un problème beaucoup trop facile pour ces modèles et il est probable qu'il ait été un objectif de préentraînement ou de mi-entraînement directement. Pour atténuer cela, ce qui est utilisé pour examiner la mise à l'échelle pour les laboratoires est la précision de validation sur un sous-ensemble des problèmes d'entraînement. Cela montre les capacités des modèles à apprendre à partir d'un ensemble de données donné. Cela diffère des lois de mise à l'échelle de préentraînement qui prédisent la perte sur l'ensemble de test. Un grand inconnu à mon avis est le nombre d'étapes nécessaires pour qu'un petit modèle converge par rapport à un grand modèle. D'après beaucoup de mes expériences personnelles (et discussions), il semble plus probable que les grands modèles aient en fait besoin de moins d'étapes, donc le graphique que vous avez partagé me préoccupe un peu. Ensuite, ce que font les laboratoires, c'est prévoir la performance finale à partir de la forme initiale des courbes RL. C'est également beaucoup plus facile avec une infrastructure supérieure qui est plus stable sur des périodes plus longues. Cela ressemble davantage aux lois de mise à l'échelle de préentraînement traditionnelles où vous entraînez chaque modèle à un multiple des tokens optimaux de Chinchilla. Cela ne prend également pas en compte la mise à l'échelle des différents hyperparamètres. Une grande partie de l'application des lois de mise à l'échelle consiste à apprendre correctement comment ajuster les paramètres clés pour le modèle. Pour le préentraînement, il s'agit souvent du taux d'apprentissage (LR), du calendrier de LR et des ajustements de taille de lot. L'RL, d'après mon expérience, a été beaucoup moins sensible au taux d'apprentissage que le préentraînement.