🚀你是否曾想過如何讓RL在不可能的困難任務上運作,其中pass@k = 0%?🤔 在我們的新研究中,我們分享了RL Grokking食譜:一個訓練食譜,使LLM能夠解決以前無法解決的編碼問題!我下週將參加#CoLM2025,期待與大家聊聊! 我們還深入探討了激烈的辯論:RL只是加強以前學到的技能,還是能夠解鎖真正新的推理能力?🔥🔥 在這裡閱讀完整的博客: #AI #RL #NLP #reinforcementlearning #llm