🚀Ti sei mai chiesto come far funzionare il RL su compiti impossibili dove pass@k = 0%? 🤔 Nel nostro nuovo lavoro, condividiamo la Ricetta Grokking per il RL: una ricetta di addestramento che consente agli LLM di risolvere problemi di codifica precedentemente irrisolvibili! Sarò al #CoLM2025 la prossima settimana, quindi felice di parlarne! Ci immergiamo anche nel dibattito acceso: il RL affina solo le abilità apprese in precedenza o può sbloccare un ragionamento genuinamente nuovo? 🔥🔥 Leggi il blog completo qui: #AI #RL #NLP #reinforcementlearning #llm