🧵 Saat laboratorium AI berlomba untuk menskalakan RL, satu pertanyaan penting: kapan Anda harus berhenti pra-pelatihan dan memulai RL?
Kami melatih 5 model Qwen (0,6B→14B) dengan RL pada GSM8K dan menemukan sesuatu yang liar:
Model kecil melihat lompatan EMERGENCE-LIKE. Model besar melihat pengembalian yang berkurang.
Hukum penskalaan? Tidak seperti yang Anda harapkan
Jadi, @OpenAI melakukan perangkat keras open source dan ada 0 hype tentang itu!
Akan meretas ini sepanjang malam, milik @dubssg dan @michelleqin_, terima kasih :) Saya hanya menginginkan @Humane, tapi oss, murah, dan tanpa semua sampah.