🚀Vous vous êtes déjà demandé comment faire fonctionner le RL sur des tâches impossibles où pass@k = 0 % ? 🤔 Dans notre nouveau travail, nous partageons la recette de Grokking RL : une recette d'entraînement qui permet aux LLM de résoudre des problèmes de codage auparavant insolubles ! Je serai à #CoLM2025 la semaine prochaine, donc je serai ravi d'en discuter ! Nous plongeons également dans le débat passionné : le RL ne fait-il que perfectionner des compétences précédemment acquises ou peut-il débloquer un raisonnement véritablement nouveau ? 🔥🔥 Lisez le blog complet ici : #AI #RL #NLP #reinforcementlearning #llm