🚀pass@k = 0%の不可能な難しいタスクでRLを機能させる方法を考えたことはありますか?🤔 私たちの新しい研究では、LLM がこれまで解決できなかったコーディングの問題を解決できるようにするトレーニング レシピである RL Grokking Recipe を共有します。来週 #CoLM2025 に来るので、それについて話すことができてうれしいです! また、RLは以前に学んだスキルを磨くだけなのか、それとも真に新しい推論を解き放つことができるのか、という激しい議論にも飛び込んでいます。🔥🔥 ブログ全文はこちらからお読みください。 #AI #RL #NLP #reinforcementlearning #llm