Интересно видеть, как Bytedance работает над решением проблемы 0-градуса. Их идея заключается в том, чтобы решить её с помощью адаптивного бюджета вычислений; мы подходим к этому с точки зрения вознаграждения. Обучение GRPO обычно использует небольшие, тщательно подобранные наборы данных, данные должны быть действительно сложными, чтобы предоставить богатые сигналы для обучения и позволить открытию. Обучение на более простых данных просто уточнит то, что модель уже видела в SFT/предварительном обучении!
🚀 Рад поделиться нашей работой в Bytedance Seed!
Knapsack RL: Разблокировка исследования LLM через распределение бюджета 🎒
Исследование в обучении LLM имеет решающее значение, но дорого.
Равномерное распределение роллов неэффективно:
✅ Легкие задачи → всегда решены → 0 градиент
❌ Сложные задачи → всегда провалены → 0 градиент
💡 Наша идея: рассматривать исследование как задачу о рюкзаке → распределять роллы там, где это имеет наибольшее значение.
✨ Результаты:
🔼 +20–40% больше ненулевых градиентов
🧮 До 93 роллов для сложных задач (без дополнительных вычислений)
📈 +2–4 средних балла, +9 пиковых приростов на математических тестах
💰 ~2× дешевле, чем равномерное распределение
📄 Статья:
🚀Вы когда-нибудь задумывались, как заставить RL работать над невозможными сложными задачами, где pass@k = 0%? 🤔
В нашей новой работе мы делимся Рецептом Гроккинга RL: рецептом обучения, который позволяет LLM решать ранее неразрешимые задачи программирования! Я буду на #CoLM2025 на следующей неделе, так что буду рад обсудить это!
Мы также углубляемся в горячую дискуссию: улучшает ли RL просто ранее усвоенные навыки или может ли он открыть действительно новое мышление? 🔥🔥
Читать полный блог здесь:
#AI #RL #NLP #reinforcementlearning #llm