🚀Já se perguntou como fazer o RL funcionar em tarefas difíceis impossíveis onde pass@k = 0%? 🤔 Em nosso novo trabalho, compartilhamos a Receita RL Grokking: uma receita de treinamento que permite que os LLMs resolvam problemas de codificação anteriormente insolúveis! Estarei na #CoLM2025 na próxima semana, então ficarei feliz em conversar sobre isso! Também mergulhamos no debate acalorado: o RL apenas aprimora as habilidades aprendidas anteriormente ou pode desbloquear um raciocínio genuinamente novo? 🔥🔥 Leia o blog completo aqui: #AI #RL #NLP #reinforcementlearning #llm