🚀Pernah bertanya-tanya bagaimana cara membuat RL bekerja pada tugas sulit yang mustahil di mana pass@k = 0%? 🤔 Dalam karya baru kami, kami membagikan Resep Grokking RL: resep pelatihan yang memungkinkan LLM memecahkan masalah pengkodean yang sebelumnya tidak dapat dipecahkan! Saya akan berada di #CoLM2025 minggu depan jadi senang untuk mengobrol tentang itu! Kami juga menyelami perdebatan sengit: apakah RL hanya mempertajam keterampilan yang dipelajari sebelumnya atau dapatkah itu membuka penalaran yang benar-benar baru? 🔥🔥 Baca blog lengkapnya di sini: #AI #RL #NLP #reinforcementlearning #llm