To je skvělý experiment! Není to tak docela zákon škálování RL, ve smyslu toho, co jsem shromáždil v několika hraničních laboratořích. Spousta věcí je podobná, ale jejich metody navazování těchto vztahů se zdají být trochu odlišné. Za prvé, určitě používají sadu základních modelů něco jako tento. Není mi však jasné, zda kombinace GSM8K zejména s Qwen 3 je dobrá dvojice. Pro tyto modelky je to příliš snadný problém a pravděpodobně se stal terčem předtréninku nebo přímého trénování. Aby se to zmírnilo, používá se k pohledu na škálování pro laboratoře přesnost ověření na podmnožině trénovacích problémů. To ukazuje schopnosti modelů učit se z dané datové sady. To se liší od zákonů škálování před trénováním, které předpovídají ztrátu testovací sady. Velkou neznámou je podle mého názoru to, kolik kroků je potřeba k tomu, aby se malý model a velký model přiblížil. Napříč mnoha mými osobními zkušenostmi (a diskusemi) se zdá nejpravděpodobnější, že velké modely ve skutečnosti potřebují méně kroků, takže zápletka, o kterou jste se podělil, ve mně vyvolává určité obavy. Laboratoře pak dělají předpovědi konečného výkonu z počátečního tvaru křivek RL. To je také mnohem jednodušší díky vynikající infrastruktuře, která je stabilnější při delších trasách. To se blíží tradičním zákonům škálování před trénováním, kde každý model trénujete na násobek optimálních tokenů Chinchilla. To také nezohledňuje různé škálování hyperparametrů. Velkou součástí aplikace zákonů o změně měřítka je správné naučení se, jak škálovat klíčové parametry modelu. U předškolení se často jedná o rychlost učení (LR), LR plán a úpravy velikosti šarže. RL je podle mých zkušeností mnohem méně citlivý na rychlost učení než předtrénink.