Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧵 Während KI-Labore darum wetteifern, RL zu skalieren, stellt sich eine Frage: Wann solltest du mit dem Pre-Training aufhören und mit RL beginnen?
Wir haben 5 Qwen-Modelle (0,6B→14B) mit RL auf GSM8K trainiert und etwas Wildes entdeckt:
Kleine Modelle zeigen EMERGENZ-ÄHNLICHE Sprünge. Große Modelle zeigen abnehmende Erträge.
Das Skalierungsgesetz? Nicht das, was du erwarten würdest.

Top
Ranking
Favoriten