Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acesta este un experiment grozav! Nu este chiar o lege de scalare RL, în sensul a ceea ce am adunat de la câteva laboratoare de frontieră. Multe lucruri sunt similare, dar metodele lor de stabilire a acestor relații par puțin diferite.
În primul rând, folosesc cu siguranță un set de modele de bază cam așa. Cu toate acestea, nu îmi este clar dacă combinația GSM8K, în special cu Qwen 3, este o pereche bună. Este o problemă mult prea ușoară pentru aceste modele și probabil că a fost o țintă directă a antrenamentului pre-antrenament sau la mijlocul antrenamentului.
Pentru a atenua acest lucru, lucrul care este folosit pentru a analiza scalarea pentru laboratoare este acuratețea validării pe un subset de probleme de instruire. Acest lucru arată abilitățile modelelor de a învăța dintr-un anumit set de date. Acest lucru diferă de legile de scalare înainte de antrenament care prezic pierderea setului de teste.
O mare necunoscută în opinia mea este câți pași este nevoie pentru ca un model mic versus un model mare să convergă. În multe dintre experiențele mele personale (și discuții) pare cel mai probabil că modelele mari au nevoie de mai puțini pași, așa că intriga pe care ați împărtășit-o îmi dă unele îngrijorări.
Apoi, ceea ce fac laboratoarele este să prognozeze performanța finală din forma inițială a curbelor RL. Acest lucru este, de asemenea, mult mai ușor cu o infrastructură superioară, care este mai stabilă pe curse mai lungi. Acest lucru pare mai aproape de legile tradiționale de scalare înainte de antrenament, în care antrenezi fiecare model la un multiplu de jetoane optime Chinchilla.
De asemenea, acest lucru nu ține cont de scalarea diferiților hiperparametri. O mare parte a aplicării legilor de scalare este învățarea corectă a modului de scalare a parametrilor cheie pentru model. Pentru preantrenament, aceasta este adesea rata de învățare (LR), programul LR și ajustările dimensiunii lotului. RL din experiența mea a fost mult mai puțin sensibil la rata de învățare decât preantrenamentul.
Limită superioară
Clasament
Favorite