🧵 Pe măsură ce laboratoarele AI se grăbesc să scaleze RL, o întrebare contează: când ar trebui să opriți pre-antrenamentul și să începeți RL? Am antrenat 5 modele Qwen (0.6B→14B) cu RL pe GSM8K și am găsit ceva sălbatic: Modelele mici văd salturi de tip EMERGENCE. Modelele mari înregistrează randamente în scădere. Legea scalării? Nu este ceea ce te-ai aștepta