Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tämä on hieno kokeilu! Se ei ole aivan RL-skaalauslaki siinä mielessä, mitä olen kerännyt muutamasta rajalaboratoriosta. Monet asiat ovat samanlaisia, mutta heidän menetelmänsä näiden suhteiden luomiseksi näyttävät hieman erilaisilta.
Ensinnäkin he käyttävät ehdottomasti joukkoa perusmalleja tavallaan näin. Minulle ei kuitenkaan ole selvää, onko GSM8K:n yhdistelmä erityisesti Qwen 3:n kanssa hyvä pari. Se on aivan liian helppo ongelma näille malleille, ja se on todennäköisesti ollut suoraan esi- tai keskiharjoittelun kohteena.
Tämän lievittämiseksi laboratorioiden skaalauksen tarkastelussa käytetään validointitarkkuutta koulutusongelmien osajoukossa. Tämä osoittaa mallien kyvyn oppia tietystä tietojoukosta. Tämä eroaa harjoitusta edeltävistä skaalauslaeista, jotka ennustavat testisarjan menetystä.
Suuri tuntematon mielestäni on se, kuinka monta askelta pienen mallin ja suuren mallin lähentyminen vaatii. Monien henkilökohtaisten kokemusteni (ja keskustelujeni) perusteella näyttää todennäköisimmältä, että suuret mallit tarvitsevat itse asiassa vähemmän vaiheita, joten jakamasi juoni huolestuttaa minua.
Sitten laboratoriot ennustavat lopullista suorituskykyä RL-käyrien alkuperäisestä muodosta. Tämä on myös paljon helpompaa ylivoimaisen infrastruktuurin ansiosta, joka on vakaampi pidemmillä ajoilla. Tämä näyttää lähempänä perinteisiä esikoulutusta edeltäviä skaalauslakeja, joissa koulutat jokaisen mallin Chinchillan optimaalisten tokenien kerrannaisiksi.
Tämä ei myöskään ota huomioon erilaisia hyperparametrien skaalausta. Suuri osa skaalauslakien soveltamisesta on mallin keskeisten parametrien skaalaamisen oikein oppiminen. Esikoulutuksessa tämä on usein oppimisnopeuden (LR), LR-aikataulun ja eräkoon säätöjä. RL on kokemukseni mukaan ollut paljon vähemmän herkkä oppimisnopeudelle kuin esikoulutus.
Johtavat
Rankkaus
Suosikit