🚀Alguma vez se perguntou como fazer RL funcionar em tarefas impossíveis onde pass@k = 0%? 🤔 No nosso novo trabalho, partilhamos a Receita de Grokking de RL: uma receita de treino que permite que LLMs resolvam problemas de codificação anteriormente insolúveis! Estarei no #CoLM2025 na próxima semana, por isso estou feliz em conversar sobre isso! Também mergulhamos no acalorado debate: será que RL apenas afina habilidades previamente aprendidas ou pode desbloquear um raciocínio genuinamente novo? 🔥🔥 Leia o blog completo aqui: #AI #RL #NLP #reinforcementlearning #llm