Detta är ett bra experiment! Det är inte riktigt en RL-skalningslag, i den meningen att jag har samlat in från några gränslaboratorier. Många saker är lika, men deras metoder för att etablera dessa relationer verkar lite olika. För det första använder de definitivt en uppsättning basmodeller ungefär så här. Det är dock inte klart för mig om kombinationen av GSM8K särskilt med Qwen 3 är en bra parning. Det är ett alldeles för enkelt problem för dessa modeller och har troligen varit ett mål för förträning eller direkt under träningen. För att lindra detta är det som används för att titta på skalning för labb valideringsnoggrannheten för en delmängd av träningsproblemen. Detta visar modellernas förmåga att lära sig av en given datamängd. Detta skiljer sig från skalningslagar före träning som förutsäger förlust av testuppsättningar. En stor ovisshet enligt min mening är hur många steg det tar för en liten modell kontra en stor modell att konvergera. I många av mina personliga erfarenheter (och diskussioner) verkar det mest troligt att stora modeller faktiskt behöver färre steg, så handlingen du delade ger mig vissa bekymmer. Vad laboratorierna sedan gör är att förutsäga slutlig prestanda från den ursprungliga formen av RL-kurvorna. Detta är också mycket enklare med överlägsen infrastruktur som är mer stabil på längre körningar. Detta ser närmare ut som de traditionella skalningslagarna före träningen där du tränar varje modell till en multipel av optimala Chinchilla-tokens. Detta tar inte heller hänsyn till olika skalning av hyperparametrar. En stor del av att tillämpa skalningslagar är att lära sig att skala nyckelparametrar för modellen på rätt sätt. För förträning är detta ofta inlärningshastighet (LR), LR-schema och batchstorleksjusteringar. RL har enligt min erfarenhet varit mycket mindre känslig för inlärningshastighet än förträning.