🚀Har du någonsin undrat hur man får RL att fungera på omöjliga svåra uppgifter där pass@k = 0%? 🤔 I vårt nya arbete delar vi med oss av RL Grokking-receptet: ett träningsrecept som gör det möjligt för LLM:er att lösa tidigare olösliga kodningsproblem! Jag kommer att vara på #CoLM2025 nästa vecka så glad att prata om det! Vi dyker också in i den heta debatten: vässar RL bara tidigare inlärda färdigheter eller kan det låsa upp genuint nytt resonemang? 🔥🔥 Läs hela bloggen här: #AI #RL #NLP #reinforcementlearning #llm