Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧵 Pe măsură ce laboratoarele AI se grăbesc să scaleze RL, o întrebare contează: când ar trebui să opriți pre-antrenamentul și să începeți RL?
Am antrenat 5 modele Qwen (0.6B→14B) cu RL pe GSM8K și am găsit ceva sălbatic:
Modelele mici văd salturi de tip EMERGENCE. Modelele mari înregistrează randamente în scădere.
Legea scalării? Nu este ceea ce te-ai aștepta

Limită superioară
Clasament
Favorite