Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dette er et flott eksperiment! Det er ikke helt en RL-skaleringslov, i betydningen det jeg har samlet inn fra noen få grenselaboratorier. Mange ting er like, men metodene deres for å etablere disse relasjonene virker litt forskjellige.
For det første bruker de definitivt et sett med basismodeller som dette. Det er imidlertid ikke klart for meg om kombinasjonen av GSM8K, spesielt med Qwen 3, er en god sammenkobling. Det er et altfor lett problem for disse modellene og har sannsynligvis vært et mål for forhåndstrening eller mellomtrening direkte.
For å lindre dette er det som brukes til å se på skalering for laboratorier valideringsnøyaktigheten på en delmengde av treningsproblemene. Dette viser modellenes evne til å lære av et gitt datasett. Dette skiller seg fra skaleringslover før trening som forutsier tap av testsett.
En stor ukjent etter min mening er hvor mange skritt det tar for en liten modell kontra en stor modell å konvergere. På tvers av mange av mine personlige erfaringer (og diskusjoner) virker det mest sannsynlig at store modeller faktisk trenger færre trinn, så plottet du delte gir meg noen bekymringer.
Det laboratoriene gjør er å forutsi endelig ytelse fra den opprinnelige formen på RL-kurvene. Dette er også mye enklere med overlegen infrastruktur som er mer stabil på lengre løp. Dette ser nærmere ut til de tradisjonelle skaleringslovene før trening der du trener hver modell til et multiplum av Chinchilla-optimale tokens.
Dette tar heller ikke hensyn til ulike hyperparameterskaleringer. En stor del av å bruke skaleringslover er å lære riktig hvordan man skalerer nøkkelparametere for modellen. For forhåndsopplæring er dette ofte læringshastighet (LR), LR-tidsplan og batchstørrelsesjusteringer. RL har etter min erfaring vært mye mindre følsom for læringshastighet enn fortrening.
Topp
Rangering
Favoritter