🚀Czy kiedykolwiek zastanawiałeś się, jak sprawić, by RL działało w przypadku niemożliwych zadań, gdzie pass@k = 0%? 🤔 W naszej nowej pracy dzielimy się przepisem na RL Grokking: przepisem na trening, który umożliwia LLM rozwiązywanie wcześniej nierozwiązywalnych problemów kodowania! Będę na #CoLM2025 w przyszłym tygodniu, więc chętnie porozmawiam o tym! Zagłębiamy się również w gorącą debatę: czy RL tylko ostrzy wcześniej nabyte umiejętności, czy może odblokowuje naprawdę nowe rozumowanie? 🔥🔥 Przeczytaj pełnego bloga tutaj: #AI #RL #NLP #reinforcementlearning #llm