🧵 Saat laboratorium AI berlomba untuk menskalakan RL, satu pertanyaan penting: kapan Anda harus berhenti pra-pelatihan dan memulai RL? Kami melatih 5 model Qwen (0,6B→14B) dengan RL pada GSM8K dan menemukan sesuatu yang liar: Model kecil melihat lompatan EMERGENCE-LIKE. Model besar melihat pengembalian yang berkurang. Hukum penskalaan? Tidak seperti yang Anda harapkan