Ini eksperimen yang hebat! Ini bukan hukum penskalaan RL, dalam arti apa yang telah saya kumpulkan dari beberapa laboratorium perbatasan. Banyak hal yang mirip, tetapi metode mereka untuk membangun hubungan ini tampaknya sedikit berbeda. Pertama, mereka pasti menggunakan satu set model dasar seperti ini. Padahal, tidak jelas bagi saya apakah kombinasi GSM8K terutama dengan Qwen 3 adalah pasangan yang baik. Ini terlalu mudah menjadi masalah untuk model-model tersebut dan kemungkinan telah menjadi target pra-pelatihan atau midtraining secara langsung. Untuk meringankan hal ini, hal yang digunakan untuk melihat penskalaan untuk lab adalah akurasi validasi pada bagian dari masalah pelatihan. Ini menunjukkan kemampuan model untuk belajar dari himpunan data tertentu. Ini berbeda dari undang-undang penskalaan prapelatihan yang memprediksi kehilangan set pengujian. Yang tidak diketahui besar menurut saya adalah berapa banyak langkah yang diperlukan untuk model kecil versus model besar untuk menyatu. Di banyak pengalaman pribadi saya (dan diskusi) tampaknya kemungkinan besar model besar benar-benar membutuhkan lebih sedikit langkah, jadi plot yang Anda bagikan memberi saya beberapa kekhawatiran. Kemudian, yang dilakukan laboratorium adalah memperkirakan kinerja akhir dari bentuk awal kurva RL. Ini juga jauh lebih mudah dengan infrastruktur unggul yang lebih stabil pada jangka waktu yang lebih lama. Ini terlihat lebih dekat dengan undang-undang penskalaan prapelatihan tradisional di mana Anda melatih setiap model ke kelipatan token optimal Chinchilla. Ini juga tidak memperhitungkan penskalaan hiperparameter yang berbeda. Bagian besar dari penerapan hukum penskalaan adalah mempelajari dengan benar cara menskalakan parameter utama untuk model. Untuk prapelatihan ini sering kali berupa tingkat pembelajaran (LR), jadwal LR, dan penyesuaian ukuran batch. RL dalam pengalaman saya jauh lebih sensitif terhadap tingkat pembelajaran daripada prapelatihan.