Dit is een geweldig experiment! Het is niet helemaal een RL-schaalwet, in de zin van wat ik heb verzameld van een paar grenslaboratoria. Veel dingen zijn vergelijkbaar, maar hun methoden om deze relaties vast te stellen lijken een beetje anders. Ten eerste gebruiken ze zeker een set basismodellen die hierop lijken. Hoewel het voor mij niet duidelijk is of de combinatie van GSM8K, vooral met Qwen 3, een goede combinatie is. Het is veel te gemakkelijk een probleem voor die modellen en waarschijnlijk een doel geweest van pretraining of midtraining direct. Om dit te verlichten, is het ding dat wordt gebruikt om naar schaalvergroting voor laboratoria te kijken de validatie-accuraatheid op een subset van de trainingsproblemen. Dit toont de mogelijkheden van de modellen om te leren van een gegeven dataset. Dit verschilt van pretraining-schaalwetten die de testset-verlies voorspellen. Een grote onbekende naar mijn mening is hoeveel stappen het kost voor een klein model versus een groot model om te convergeren. Op basis van veel van mijn persoonlijke ervaringen (en discussies) lijkt het het meest waarschijnlijk dat grote modellen eigenlijk minder stappen nodig hebben, dus de plot die je deelde geeft me enige zorgen. Wat de laboratoria doen, is de uiteindelijke prestaties voorspellen op basis van de initiële vorm van de RL-curves. Dit is ook veel gemakkelijker met superieure infrastructuur die stabieler is bij langere runs. Dit lijkt dichter bij de traditionele pretraining-schaalwetten waar je elk model traint tot een veelvoud van Chinchilla optimale tokens. Dit houdt ook geen rekening met verschillende hyperparameterschaal. Een groot deel van het toepassen van schaalwetten is correct leren hoe je belangrijke parameters voor het model moet schalen. Voor pretraining is dit vaak leersnelheid (LR), LR-schema en aanpassingen van batchgrootte. RL is naar mijn ervaring veel minder gevoelig voor leersnelheid dan pretraining.