Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🧵 Saat laboratorium AI berlomba untuk menskalakan RL, satu pertanyaan penting: kapan Anda harus berhenti pra-pelatihan dan memulai RL?
Kami melatih 5 model Qwen (0,6B→14B) dengan RL pada GSM8K dan menemukan sesuatu yang liar:
Model kecil melihat lompatan EMERGENCE-LIKE. Model besar melihat pengembalian yang berkurang.
Hukum penskalaan? Tidak seperti yang Anda harapkan

Teratas
Peringkat
Favorit