🚀Te-ai întrebat vreodată cum să faci RL să funcționeze pe sarcini grele imposibil în care pass@k = 0%? 🤔 În noua noastră lucrare, împărtășim rețeta RL Grokking: o rețetă de antrenament care permite LLM-urilor să rezolve probleme de codare care nu puteau fi rezolvate anterior! Voi fi la #CoLM2025 săptămâna viitoare, așa că sunt fericit să vorbesc despre asta! De asemenea, ne scufundăm în dezbaterea aprinsă: RL doar ascuțește abilitățile învățate anterior sau poate debloca un raționament cu adevărat nou? 🔥🔥 Citiți blogul complet aici: #AI #RL #NLP #reinforcementlearning #llm